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内 容 简 介 

R 既是 一 种 统计 软件 ， 也 是 一 种 数学 计算 的 环境 ， 因 为 R 并 
不 是 仅仅 提供 者 干 统 计 程 序 , 使 用 者 只 需 指定 数据 库 和 者 干 参数 便 
可 进行 一 个 统计 分 析 ， 而 且 还 可 以 提供 一 些 集成 的 统计 工具 ， 以 及 
可 提供 各 种 数学 计算 、 统 计 计算 的 函数 ， 从 而 使 用 户 能 灵活 机 动 的 
进行 数据 分 析 ， 其 至 创造 出 符合 需要 的 新 的 统计 计算 方法 . 通过 R 
语言 的 许多 内 和 骨 统 计 函 数 ， 读 者 可 以 很 容易 学 习 和 掌握 Rud 
语法 ， 也 可 以 编制 自己 的 函数 来 扩展 现 有 的 R 语言 . 

本 书 既 深入 浅 出 、 通 俗 易 懂 ， 又 从 数理 统计 的 角度 对 R 软件 
进行 科学 、 准 确 和 全 面 的 介绍 ， 不 仅 介 绍 其 基本 用 法 ， 而 且 简 要 介 
绍 一 些 必须 的 专业 知识 青 景 , 以 便 使 读者 能 深刻 理解 该 软件 的 精髓 
和 灵活 、 高 级 的 使 用 技巧 . 此 外 ， 我 们 还 将 介绍 在 工程 技术 、 经 济 
管理 、 社 会 生活 等 各 方面 的 丰富 的 统计 问题 及 其 统计 建 模 方 法 , 38 
过 该 软件 进行 求解 ,使 读者 获得 从 实际 问题 建 模 入 手 、 到 利用 软件 
进行 解答 和 分 析 的 全 面 训 练 . 

本 教材 以 统计 理论 为 基础 ， 按 照 数理 统计 教材 的 章节 顺序 ,在 
讲 明 统计 的 基本 概念 的 同时 ， 以 R 软件 为 辅助 计算 手段 ， 重 点 介 
绍 统计 计算 的 方法 ， 从 而 有 效 地 解决 统计 中 的 计算 问题 . 

本 书 可 作为 为 理工 、 经 济 、 管 理 、 生 物 等 专业 学 生 数 理 统计 课 
程 的 辅导 教材 或 教学 参考 书 ， 也 作为 统计 计算 课程 的 教材 ， 和 数学 
建 模 竞赛 的 辅导 教材 . 
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本 书 既 不 是 一 本 关于 数理 统计 或 统计 计算 的 教科 书 ， 也 不 是 一 本 关于 R 软 
件 使 用 手册 的 教材 ， 而 是 一 本 将 两 者 相 结合 的 教材 或 教科 书 . 

关于 数理 统计 的 教材 或 教科 书 已 非常 多 , 这 类 教材 主要 是 以 数理 统计 的 理论 
为 基础 ， 讲 清 其 理论 、 方 法 与 应 用 背景 ,但 对 于 计算 ， 讲 的 较 少 ， 基 本 是 以 手工 
计算 为 主 ， 目 的 是 为 了 帮助 读者 理解 相应 的 统计 方法 ， 可 操作 性 不 强 . 

关于 统计 计算 的 书 也 有 不 少 ， 目 前 ， 统 计 计 算 的 教材 一 般 是 讲 算法 (这 一 点 
与 数值 分 析 或 计算 方法 差不多 )， 而 没有 相应 的 软件 做 支撑 ， 有 些 内 容 是 数值 分 
析 内 容 的 重复 ， 统 计 味 不 足 . 

结合 软件 讲 统计 的 书 ， 目 前 最 多 的 是 结合 SAS 软件 、 SPSS 软件 .这 类 书 
籍 基本 上 相当 于 软件 使 用 说 明 书 ， 虽 然 谈 到 一 些 统计 概念 ， 但 讲 的 很 少 . 

本 书 的 特点 是 结合 R 软件 来 讲 数理 统计 的 基本 概论 与 计算 方法 ，R 软件 一 
即 是 一 种 统计 软件 ， 也 是 一 种 数学 计算 的 环境 ， 因 为 R 并 不 是 仅仅 提供 者 干 统 
计 程 序 , 使 用 者 只 需 指定 数据 库 和 寿 干 参数 便 可 进行 一 个 统计 分 析 ， 而且 还 可 以 
提供 一 些 集 成 的 统计 工具 ， 以 及 可 提供 各 种 数学 计算 、 统 计 计算 的 函数 ， 从 而 使 
用 户 能 灵活 机 动 的 进行 数据 分 析 ， 甚 至 创造 出 符合 需要 的 新 的 统计 计算 方法 . 通 
过 了 语言 的 许多 内 徐 统 计 函 数 ， 读 者 可 以 很 容易 学 习 和 掌握 R 语言 的 语法 ， 也 
可 以 编制 自己 的 函数 来 扩展 现 有 的 R 语言 . 

本 教材 的 编写 风格 是 : (1) 以 目前 常见 的 数理 统计 教材 的 内 容 为 基准 ， 首 
先 对 数理 统计 的 基本 概念 、 基 本 方法 作 一 个 简单 、 清 晰 的 介绍 ,在 注重 基础 的 同 
时 ， 侧 重 统计 思想 和 统计 方法 的 介绍 . (2) 以 R 语言 为 主 ， 编 写 相 应 的 计算 程 
序 . 这 部 分 内 容 的 目的 有 两 个 ， 第 一 是 学 习 R 软件 的 编程 方法 ， 和 掌握 R 软件 的 
基本 技巧 . 第 二 是 通过 编程 加 深 对 统计 方法 的 了 解 与 掌握 ， 同时， 还 可 以 通过 编 
程 ， 加 深 对 R 软件 中 相关 函数 的 了 解 . (3) 介绍 相关 的 计算 函数 .针对 许多 统 
计 方 法 ， R 软件 提供 了 大 量 的 相关 计算 函数 ， 使 用 者 只 需 输入 数据 ， 就 可 得 到 
相应 的 结果 . 这 一 部 分 的 写作 重点 是 放 在 对 计算 结果 的 统计 和 解释， 如何 通过 结果 
来 分 析 已 有 的 数据 ， 着 重 掌 握 相 应 的 统计 方法 . 这 些 是 本 教材 最 主要 的 特色 ,也 
是 不 同 于 其 他 与 软件 有 关 的 教材 .本 书 着 重 强 调 统 计 建 模 ， 以 及 如 何 使 用 R 软 
件 得 到 其 计算 结果 和 相应 的 结果 解释 . 

本 书 的 主要 内 容 : 第 一 章 ， 概 率 统 计 的 基本 知识 . 主要 目的 是 复习 统计 的 基 





























i 


hill 


ii 前 


本 知识 , 便于 对 后 面 各 章 内 容 的 理解 . 第 二 章 ，R 软件 的 使 用 . 主要 介绍 R 软件 
的 基本 使 用 方法 . 第 三 章 ， 数 据 描述 性 分 析 ， 从 数据 描述 开始 分 析 数 据 ， 主 要 介 
绍 数据 的 基本 特征 ， 如 均值 、 方 差 ， 还 有 与 数据 有 关 的 各 种 图 形 ， 如 直方 图 、 散 
点 图 等 ， 第 四 章 ， 参 数 估计 . 介绍 参数 佑 计 的 基本 方法 ， 如 点 估计 和 区 间 佑 计 . 
着 重 介绍 R 软件 中 与 估计 有 关 的 函数 . 第 五 章 , 假设 检验 . 介绍 假设 检验 的 基本 
方法 ,一 类 是 参数 检验 ， 男 一 类 是 非 参数 检验 ， 非 参数 检验 是 该 章 的 主要 内 容 ， 
重点 介绍 R 软件 中 与 非 参 数 检验 的 各 类 函数 和 使 用 方法 . 第 六 章 ， 回归 分 析 . fr 
绍 回归 分 析 的 基本 方法 ， 着 重 介 绍 回 归 分 析 的 过 程 与 方法 和 如 何 使 用 及 软件 作 
回归 分 析 . 重点 介绍 其 他 教科 书 很 少 讲 到 的 逐步 回归 、 非 线性 回归 的 内 容 . 第 七 
xe, 方差 分 析 . 介绍 单 因素 方差 分 析 、 双 因素 方差 分 析 ， 以 及 正 交 试验 设计 与 方 
差分 析 之 间 的 关系 . 第 八 章 ， 应 用 多 元 分 析 C 工 ). 介绍 判别 分 析 和 聚 类 分 析 ， 
这 些 内 容 与 判别 和 分 类 有 关 . 第 九 章 ， 应 用 多 元 分 析 C IL. 介绍 主 成 分 分 析 、 
主因 子 分 析 和 典型 相关 分 析 ， 它 是 应 用 多 元 分 析 中 降 维 计算 的 内 容 . 第 十 章 ， 计 
算 机 模拟 . 介绍 与 计算 机 模拟 的 Monte Carlo 方法 ， 以 及 系统 模拟 方法 ， 最 后 介 
绍 模拟 方法 在 排队 论 中 的 应 用 . 

在 学 习 本 书 的 内 容 之 后 ， 你 会 发 现 ， 尽 管 有 些 内 容 的 计算 是 相当 复杂 的 ,但 
使 用 了 R 软件 之 后 ， 这 些 问 题 可 以 很 轻松 地 得 到 解决 . 

本 书 所 编写 的 及 函数 ， 以 及 所 介绍 的 及 函数 均 以 R-2.1.1 版 为 基础 (目前 
的 版 本 是 R-2.3.1, 而 且 大 约 每 3 至 4 个 月 版 本 更 新 一 次 ), 而 且 全 部 程序 均 运 行 
通过 ， 读 者 如 果 需 要 作者 自 编 的 R 程序 ， 可 以 发 电子 邮件 向 作者 索取 ， 邮 件 地 
hE:  xueyiQbjut.edu.cn. 

本 书 是 为 理工 、 经 济 、 管 理 、 生 物 等 专业 学 生 或 专业 人 员 为 解决 统计 计算 问 
题 而 编写 ， 可 以 作为 上 述 专 业 学 生 数 理 统计 课程 的 辅导 教材 或 教学 参考 书 ， 也 作 
为 统计 计算 课程 的 教材 ， 和 数学 建 模 竞赛 的 辅导 教材 . 

由 于 受 编者 水 平 所 限 ， 书 中 一 定 存 在 不 足 甚 至 错误 之 处 ， 欢 迎 读者 不 音 指 
正 ， 我 们 电子 邮件 地 址 是 : ”xueyiQ@bjut.edu.cn (BEZX); chenlipingQbjut.edu.cn 
(Bri). 
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第 六 章 ”回归 分 析 


在 许多 实际 问题 中 ， 经 常会 遇 到 需要 同时 考虑 几 个 变量 情况 . 例如 ， 在 电路 
中 会 遇 到 电压 、 电 流 和 电阻 之 间 的 关系 ; 在 炼 钢 过 程 中 会 遇 到 钢水 中 的 碳 含量 和 
钢材 的 物理 性 能 ( 如 强度 、 延 伸 率 等 ) 之 间 的 关系 . 在 医学 上 经 常 测量 人 的 身高 、 
体重 ， 研 究 人 的 血压 与 年 龄 的 关系 等 ， 这 些 变量 之 间 是 相互 制约 的 . 

通常 ， 变 量 间 的 关系 有 两 大 类 : 

一 类 是 变量 间 有 完全 确定 的 关系 ， 可 用 函数 关系 式 来 表示 . 如 电路 中 的 欧姆 
定律 














I-UJR, 
其 中 了 工 表示 电流 ， U 表示 电压 ， RR 表示 电阻 . 在 前 面 各 章 中 研究 的 确定 性 模型 
就 属于 这 种 情况 . 

男 一 类 是 变量 间 有 一 定 的 关系 , 但 由 于 情况 错综复杂 无 法 精确 研究 ,或 由 于 
存在 不 可 避免 的 误差 等 原因 ， 以 致 它们 的 关系 无 法 用 函数 形式 表示 出 来 . 为 研究 
这 类 变量 之 间 的 关系 就 需要 通过 大 量 试验 或 观测 获得 数据 ,用 统计 方法 去 寻找 它 
们 间 的 关系 ， 这 种 关系 反映 了 变量 间 的 统计 规律 . 研究 这 类 统计 规律 的 方法 之 一 
便 是 回归 分 析 . 

在 回归 分 析 中 ， 把 变量 分 成 两 类 . 一 是 因 变 量 ,它们 通常 是 实际 问题 中 所 关 
心 的 一 些 指标 ， 通 常用 Y 表示 ， 而 影响 因 变 量 取 值 的 男 一 些 变 量 称 为 自 变 量 ， 
它们 用 Xi, X2 Xp 来 表示 . 

在 回归 分 析 中 研究 的 主要 问题 是 : 

(1) 确定 与 Xi, X2 X, 间 的 定量 关系 表达 式 . 这 种 表达 式 称 为 回归 方 
程 . 

(2) 对 求 得 的 回归 方程 的 可 信和 度 进行 检验 . 

(3) 判断 自 变量 X = 1 2……D) 对 了 有 无 影响 ， 

(4) 利用 所 求 得 的 回归 方程 进行 预测 和 控制 . 











6.1 一 元 线性 回归 


先 从 最 简单 的 情况 开始 讨论 ， 只 考虑 一 个 因 变 量 与 一 个 自 变量 X 之 间 的 
A. 
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6.1.1 ”数学 模型 


通过 一 个 例子 来 说 明 如 何 寻 找 Y 5j X 间 的 定量 关系 表达 式 . 
例 6.1 由 专业 知识 知道 , 合金 的 强度 了 (kg/mm2) 与 合金 中 矶 含量 XA) 有 关 . 
为 了 了 解 它 们 间 的 关系 ， 从 生产 中 收集 了 一 批 数据 (iyi), i= 1,2, n, 具体 
数据 见 表 6.1. 





表 6.1: 合金 的 强度 与 合金 中 碳 含量 数据 表 
ADEX WAY 





0.16 49.0 
0.17 53.0 
0.18 50.0 
0.20 55.0 
0.21 55.0 
0.23 60.0 





为 了 直观 起 见 ， 可 画 一 张 “ 散 点 图 *， 以 X 为 横 坐 标 ，Y 为 纵 坐 标 ， 每 一 数 

















[ T T | T T T 
0.10 0.12 0.14 0.16 0.18 0.20 0.22 


X 


图 6.1: 数据 的 散 点 图 与 拟 合 直线 
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在 本 例 中 ,从 散 点 图 上 发 现 ，n 个 点 基本 在 一 条 直线 附近 ， 从 而 可 以 认为 工 
Lj X 的 关系 基本 上 是 线性 的 ， 而 这 些 点 与 直线 的 偏离 是 由 其 它 一 切 不 确定 因素 
的 影响 造成 的 ， 为 此 可 以 作 如 下 假定 : 


Y = fo + 61X +e, (6.1) 


其 中 ， bot BLX 表示 Y B8 X 的 变化 而 线性 变化 的 部 分 = 是 随机 误差 ， 它 是 
其 他 一 切 不 确定 因素 影响 的 总 和 ， 其 值 不 可 观测 . 通常 假定 ~ N(0,， 07); 称 函 
数 F(X) = bo + OX 为 一 元 线性 回归 函数 ， 6o 为 回归 常数 ， [61 为 回归 系数 ， 
统称 回归 参数 . 称 XX 为 回归 上 自 变 量 (或 回归 因子 )， 称 了 为 回归 因 变 量 (或 响 
应 变量 ). 

若 (21, Y1), (22, 2), (Zn; Yn) Æ (X,Y) 的 一 组 观测 值 。 则 一 元 线性 回归 模 
型 (the simple linear regression) 可 表示 为 











Yi = bo + bizi +e; 1=1,2,...n, (6.2) 
其 中 E(e;) = 0, var(e;) = 0°, i = 1,2,...m. 
6.1.2 ”回归 参数 的 估计 


求 出 未 知 参数 bo 8. 的 估计 Do. D. 的 一 种 直观 想法 是 要 求 图 6.1 中 的 点 
(zi, yj) 与 直线 上 的 点 (zz 0) 的 偏离 越 小 越 好 ， 这 里 六 = Do + Pixi, 称 为 回归 值 
或 拟 合 值 . 


4 
n 


Q(£o, 1) = X "(yi — Po — biti)’, (6.3) 
i—1 
则 Go, Bi 的 最 小 二 乘 估计 是 指使 
Qll, 1) = min Q(B, 0 


成 立 。 经 计算 可 得 





B, = =; = 7, fo = B, (6.4) 
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其 中 


n n 


1 
mi is S Se qc T g 


i=1 i=1 


XI 
Il 


n 


p= lY w Sw = D alua). 


i=1 i=1 


称 bo, Pi 分 别 为 Bo 与 81 的 最 小 二 乘 估计 ， 称 方程 


Y T bo + AX, 
为 一 元 回归 方程 为 (或 称 经 验 回归 方程 ) 
通常 取 
n A K 2 
Y (u - - Án) 
^2 i=1 
E e) 


为 参数 o? 的 估计 量 ， (也 称 为 o? 的 最 小 二 乘 估计 ) 可 以 证 明 6? 是 c? 的 无 人 

(Ei, B 86? = o., 
关于 A 与 B 估计 的 方差 为 
vato) =o (14E), væ E (6.6) 


n 





如 果 c? 未 知 ， 则 用 5 替换 o, 得 到 


"S 元 2 入 T 
sm) -6/5+ AÊ) = -二 (6.7) 


称 sd(55), sd(B1) 分 别 为 bo 与 81 的 标准 差 . 





6.1.3 ”回归 方程 的 显著 性 检验 


从 回归 参数 的 估计 公式 (6.4) 可 知 ， 在 计算 过 程 中 并 不 一 定 要 知道 Y 与 X 
是 否 有 线性 相关 的 关系 ， 但 如 果 不 存 在 这 种 关系 ， 那 么 求 得 的 回 妇 方 程 旱 无 意 
X. 因此 ， 需 要 对 回归 方程 进行 检验 ， 从 统计 上 讲 ， i EY) B6 X 线性 变化 
的 变化 率 , Æ 5) = 0, M EY) 实际 上 并 不 随 X 作 线 性 变化 ， 仅 当 A #0 RT, 
E(Y) JME X 作 线性 变化 ,也 仅 在 这 时 一 元 线性 回归 方程 才 有 意义 . 因此 假设 检 
验 为 : 
Ho: B=0, HM: gm uU 
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通常 采用 三 种 方法 : 
(1) t 检验 法 ， 当 Ho 成 立时 ， 统 计量 


sd(61) x 


对 于 给 定 的 显著 性 水 平 检验 的 拒绝 域 为 
pl «y 
(2) 了 检验 法 。 当 Ho RAT, AE 
n A S TO e (6.9) 
对 于 给 定 的 显著 性 水 平 a, 检验 的 拒绝 域 为 


F > F4(1,n — 2). 





& 
(8) 相关 系数 检验 法 ， 记 R= ds, 称 及 为 样本 相关 系数 ， 对 于 给 定 
zryy 


的 显著 性 水 平 a, 碍 相关 系数 临界 值 表 可 得 ra(n — 2), 则 检验 的 拒绝 域 为 





|R| > ra(n — 2). (6.10) 


当 拒绝 Ho 时 ， 认 为 线性 回归 方程 是 显著 的 
在 R 软件 中 , 与 线性 模型 有 关 的 函数 有 : lm() , summaryO , anovaO fil 
predict() 等 ,我 们 先 用 例子 简单 介绍 其 使 用 方法 ， 最 后 再 给 出 详细 的 介绍 . 
例 6.2 RA 6.1 的 回归 方程 ， 并 对 相应 的 方程 作 检 验 . 
解 : 利用 R 软件 中 的 mO 可 以 非常 方便 求 出 回归 参数 o, 6 和 作 相 应 的 检 
相应 的 R 软件 计算 过 程 如 下 : 
> x<-c(0.10, 0.11, 0.12, 0.13, 0.14, 0.15, 
0.16, 0.17, 0.18, 0.20, 0.21, 0.23) 
> y<-c(42.0, 43.5, 45.0, 45.5, 45.0, 47.5, 
49.0, 53.0, 50.0, 55.0, 55.0, 60.0) 
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> lm.sol«-1m(y ^ 1*x) 
> summary (1m.sol) 
Call: 


lm(formula = y ^ 1 + x) 


Residuals: 
Min 1Q Median 3Q Max 
-2.0431 -0.7056 0.1694 0.6633 2.2653 


Coefficients: 


Estimate Std. Error t value Pr(>|t|) 


(Intercept) 28.493 1.580 18.04 5.88e-09 *** 
X 130.835 9.683 13.51 9.50e-08 *** 
Signif. codes: (0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 .2 0.1 ^ 1 


Residual standard error: 1.319 on 10 degrees of freedom 
Multiple R-Squared: 0.9481, Adjusted R-squared: 0.9429 
F-statistic: 182.6 on 1 and 10 DF, p-value: 9.505e-08 

在 上 述 操作 中 ， 第 一 行 是 输入 目 变 量 v, 第 二 行 是 输入 因 变 量 y, 第 三 行 函数 
lm() 表示 作 线 性 模型 ， 其 模型 公式 y “ 1t+x 表示 的 是 y= ot bir +e, 第 四 行 
函数 summary() 提取 模型 的 计算 结果 . 

在 计算 结果 的 第 一 部 分 (call) 列 出 了 相应 的 回归 模型 的 公式 .第 二 部 分 
(Residuals:) 列 出 的 是 残 差 的 最 小 值 点 、1/4 分 位 点 ， 中 位 数 点 、3/ 分 4 位 点 
和 最 大 值 点 . 

在 计算 结果 的 第 三 部 分 (Coefficients:) 中 ， Estimate 表示 回归 方程 参 
数 的 估计 ， 即 o, Bi. Std. Error ! 表示 回归 参数 的 标准 差 ， 即 sd(/30), sd(D). 
t value Jj t fi, BẸ 


bo Bo Bi UNES 


dpi rues UMP ere 
sd(fo  g./1. g sd(61) i 


— XH Std. Error 表示 的 是 标准 差 ， 不 是 标准 误 ， 下 同 
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Pr(>1t1) 表示 P- 值 ， 即 概率 值 P{t > |T). 还 有 显著 性 标记 ,其 中 *** 说 明 极 

为 显著 ，** 说 明 高 度 显 著 ，* 说 明显 著 ，. 说 明 不 太 显 闭 , 没有 记号 为 不 显著 . 
在 计算 结果 的 第 四 部 分 中 , Residual standard error 表示 残 差 的 标准 差 ， 

即 式 (6.5) 中 的 o, 其 自由 度 为 n 一 2. Multiple R-Squared 为 相关 系数 的 平方 ， 


即 P 
Siy 





F-statistic 表示 卫 统 计量 ， 即 





其 自由 度 为 (1,n 一 2). p-value 为 P- 值 ， 即 概率 值 P{f > |F| 
从 计算 结果 可 以 看 出 回归 方程 通过 了 回归 参数 的 检验 与 回归 方程 的 检验 ， 
此 得 到 的 回归 方程 


^ 


Y = 28.493 + 130.835 X. 


6.1.4. 参数 9, 与 0, 的 区 间 估 计 
在 得 到 bo 与 0, 的 估计 Do 与 Â 后 ， 有 时 还 需要 它们 的 区 间 估 计 , 由 Bo 与 
B, 的 统计 性 质 可 知 ， 
Bi — B 











Te tn—2), i20,, (6.11) 
对 给 定 的 置信 水 平 1 — o, 则 有 
Bi — Bi H 二 
P | sd) < ocn =Q, 1i-—0,l. (6.12) 
因此 ， 6; (i — 0,1) 的 区 间 估 计 为 
| — sd(B;) taj(n — 2), B - sd(B;) tajs(n — 2)| . (6.13) 


注意 到 ， 在 R 程序 中 ， 线 性 回归 模型 函数 mO 和 summaryO 为 我 们 提供 
了 所 需要 的 值 ， 如 参数 的 估计 值 和 相应 的 标准 差 ， 因 此 ， 可 以 很 容易 地 计算 出 式 
(6.13) 给 出 的 区 间 估 计 值 . 

编写 相应 的 计算 程序 (程序 名 beta. int.R), 并 假设 变量 fm 是 相应 的 拟 合 
模型 
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beta.int<-function(fm,alpha=0.05){ 
A<-summary (fm) $coefficients 
df<-fm$df .residual 
left«-A[,1]-A[,2]*qt(1-alpha/2, df) 
right«-A[,1]*A[,2]*qt(1-alpha/2, df) 
rowname«-dimnames (A) [[1]] 
colname«-c("Estimate", "Left", "Right") 
matrix(c(A[,1], left, right), ncol-3, 
dimnames - list(rowname, colname )) 


} 

在 程序 中 ，summary 是 提取 模型 信息 , 返回 值 为 一 列表 , 其 中 $coefficients 
是 由 回归 系数 、 标 准 差 、t 值 和 P- 值 构成 的 怎 阵 . A fm 是 由 lm 计算 得 到 回归 
模型 ， 其 中 $df .residual 为 模型 的 自由 度 . left 和 right 是 按 式 (6.13) 计算 
区 间 的 左右 端点 . 

函数 的 返回 值 是 一 矩阵 ， 其 元 素 有 6 的 估计 值 和 相应 的 区 间 估 计 ， 下面 看 
一 个 例子 . 

例 6.3 求 例 6.2 中 参数 Bo 和 B, 的 区 闻 估 计 (a = 0.05). 

解 ， 在 计算 回归 模型 后 (1m.sol), W HARY beta. int.R, 就 可 以 得 到 

相应 的 区 间 佑 计 . 
> source("beta.int.R") 


> beta.int(lm.sol) 


Estimate Left Right 
(Intercept) 28.49282 24.97279 32.01285 
x 130.83483 109.25892 152.41074 


其 中 Left 是 估计 的 无 区 间 端 点 ， Right 是 估计 的 右 区 间 端 点 . 

从 这 个 例子 可 以 看 出 ， 我 们 不 但 可 以 利用 R 函数 进行 计算 ,还 可 以 通过 R 
函数 的 返回 值 再 计算 ， 得 到 我 们 所 需要 全 部 信息 . 
6.1.5 ”预测 


当 经 过 检验 ， 回 归 方 程 是 有 意义 时 ， 可 用 它 作 预 测 ， 这 里 讲 的 预测 可 以 有 两 
方面 的 意义 ， 一 是 当 给 定 X = zo 时 ， 求 相应 平均 值 B(yo) 的 点 估计 与 其 置信 水 
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平 为 1 一 a 的 区 间 估计 ， 二 是 对 给 定 X = roK yo = fo + Pico 的 预测 值 及 它 的 
概率 为 1— o 的 预测 区 间 . 
对 于 X = mo, Y = yo 的 置信 和 度 为 1 一 a 的 预测 区 间 为 





[Uo — l do I]. (6.14) 
其 中 
F . 2 
itp 2 1 L4 S Du ; (6.15) 
即 


Pio —l«yo < do - 1l] 21— a. 


在 实际 问题 中 ， 当 样本 容量 n 很 大 时 ， 对 于 在 T 附近 的 zo, 可 以 得 到 简化 
的 预测 区 间 ， 此 时 (6.15) 式 中 的 根 式 近似 等 于 1. E ta(n — 2) e Zaz, FÆ yo 
的 置信 度 为 1— o 的 预测 区 间 近 似 地 等 于 


[ĝo gE 8 Z2, ĝo 2 6 Z3]. (6.16) 


例 6.4 RA 6.1 P X = ro — 0.16 时 相应 了 的 概率 为 0.95 的 预测 区 I8]. 

解 : 利用 R 软件 中 的 predict 可 以 非常 方便 求 出 预测 值 与 预测 区 间 . 

下 面 是 R 软件 的 计算 过 程 : 
> new <- data.frame(x = 0.16) 
> lm.pred<-predict(lm.sol, new, interval-"prediction", level-0.95) 
> lm.pred 

fit lwr upr 

[1,] 49.42639 46.36621 52.48657 
第 一 行 表示 输入 新 的 点 zo = 0.16, 注意 ， 即 使 就 一 个 点 ， 也 要 采用 数据 框 结构 . 
第 二 行 的 函数 predict() 给 出 相应 的 预测 值 ， 参 数 interval-" prediction" 表 
示 同 时 要 给 出 相应 的 预测 区 间 ， 参 数 level=0.95 表示 相应 的 概率 为 0.95. 这 个 
参数 也 可 以 不 写 ， 因 为 它 的 省 缺 值 就 是 0.95. 

由 计算 结果 得 到 预测 值 与 相应 的 预测 区 间 


入 


Y(0.16) = 49.43， [46.37, 52.49]. 
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6.1.6 ”控制 

回归 方程 还 可 用 于 控制 . 设 某 质量 指标 Y 与 某 一 自 变量 X 间 有 线性 相关 关 
系 ， 且 已 求 得 了 线性 回归 方程 了 = o+ ÂX. 此 外 ， 当 Ye (ys v.) 为 质量 合 
格 ， 那么 X 应 控制 在 什么 范围 内 才能 以 概率 1 一 a 保证 质量 合格 ?这 便 是 一 个 
控制 问题 ， 其 中 yn y 是 某 种 标准 给 出 的 定 值 . 

控制 可 以 看 成 预测 的 反问 题 ， 即 要 求 观察 值 Y 在 某 一 区 间 (ys. ya) 内 取 值 
时 ， 问 应 将 X 控制 在 什么 范围 内 . 

由 式 (6.16), 构造 不 等 式 


| Ü — 692a =P Tx-—6Z,gs 





IV 


5 (6.17) 





^ 


Ü 3s 8 Za = Bo RE Piz 十 6 Zap 2 Yu 


由 不 等 式 (6.17) 得 到 x 的 取 值 范围 作为 控制 X 的 上 下 限 . 为 了 保证 得 到 的 控制 
范围 有 意义 ， yu 和 y 满足 Yu — Y 2 262a. 


6.4.7 “计算 实例 


这 里 用 Forbes 数据 为 例 ， 全 面 展 示 一 元 回归 模型 的 计算 过 程 . 
例 6.5 Forbes 数据 

在 十 九 世 纪 四 、 五 十 年 代 ， 苏 格 兰 物 理学 家 James D. Forbes, 试图 通过 水 的 
沸点 来 估计 海拔 高 度 , 他 知道 通过 气压 计 测 得 的 大 气压 可 用 于 得 到 海拔 高 度 ， 高 
RAR, ATERI. 在 这 里 讨论 的 实验 中 ， 他 研究 了 气压 和 沸点 之 问 的 关系 ,由 
于 在 当时 ， 运 输 精 密 的 气压 计 相 当 困难 ,这 引起 了 他 研究 此 问题 的 兴趣 ， 测量 沸 
点 将 给 旅行 者 提供 一 个 快速 估计 高 度 的 方法 . 

Forbes 在 阿尔 插 斯 山 及 苏格兰 收集 数据 . 选 定 地 点 后 ， 他 装 起 仪器 ， 测 量 气 
压 及 沸点 . 气压 单位 采用 水 银 柱 高 度 ， 并 根据 测量 时 周围 气温 与 标准 气温 之 问 的 
差异 校准 气压 . 沸点 用 华氏 温度 表示 . 我 们 从 他 1857 年 的 论文 中 选取 了 n= 二 17 
个 地 方 的 数据 ， 见 表 0.2 所 示 . 在 研究 这 些 数据 时 ， 有 若干 可 能 引起 兴趣 的 问 
题 ， 气 压 及 沸点 是 如 何 联系 的 ? 这 种 关系 是 强 是 弱 ? 我 们 能 否 根 据 温 度 预测 气 
压 ? 如 果 能 ， 有 效 性 如 何 ? 

分 析 过 程 

Forbes 的 理论 认为 ， 在 观测 值 范围 内 ， 沸 点 和 气压 值 的 对 数 成 一 直线 . 由 
此 , 取 10 作为 对 数 的 底数 . 事实 上 , 统计 分 析 与 对 数 的 底 是 没有 关系 的 . 由 于 气 
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表 6.2: 在 阿尔 卑 斯 山 及 苏格兰 的 17 个 地 方 沸点 (CF) 及 大 气压 (AFRE) 的 


Forbes 数据 


案例 号 


«c o N Oo Ct: 本 





沸点 
CEF) 
194.5 
194.3 
197.9 
198.4 
199.4 
199.9 
200.9 
201.1 
201.4 
201.3 
203.6 
204.6 
209.5 
208.6 
210.7 
211.9 
212.2 


气压 
(3E o 4) 
20.79 
20.79 
22.40 
22.67 
23.15 
23.35 
23.89 
23.99 
24.02 
24.01 
25.14 
26.57 
28.49 
27.76 
29.04 
29.88 
30.06 


log 
(气压 ) 
1.3179 
1.3179 
1.3502 
1.3555 
1.3646 
1.3683 
1.3782 
1.3800 
1.3806 
1.3805 
1.4004 
1.4244 
1.4547 
1.4434 
1.4630 
1.4754 
1.4780 


100 x log 
(气压 ) 
131.79 
131.79 
135.02 
135.55 
136.46 
136.83 
137.82 
138.00 
138.06 
138.05 
140.04 
142.44 
145.47 
144.34 
146.30 
147.54 
147.80 


压 的 对 数据 值 变化 不 大 ， 最 小 值 为 1.318, 而 最 大 的 为 1.478, 因此 将 所 有 气压 的 
对 数值 乘 以 100, 如 表 6.2 中 第 5 列 所 示 . 这 将 不 改变 分 析 的 主要 性 质 的 同时 ， 


避免 研究 非常 小 的 数字 . 


求解 过 程 : 


着 手 进 行 回归 分 析 的 一 个 有 效 途 径 是 ， 画 一 个 变量 对 另 一 变量 的 散 点 图 ， 
它 既 能 用 于 提示 某 种 关系 ， 也 能 用 于 说 明 这 种 关系 可 能 是 不 适当 的 . 在 散 点 图 





H, OX 轴 为 自 变 量 ， 这 里 是 Forbes 数据 中 的 沸点 ， 


100 x log( JE). 


Y 轴 为 响应 变量 ， 这 里 为 
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输入 数据 ， 画 出 散 点 图 (程序 名 : ”exam0804.R). 
X <- matrix(c( 


194.5, 20.79, 1.3179, 131.79, 


194.3, 20.79, 1.3179, 131.79, 
197.9, 22.40, 1.3502, 135.02, 
198.4, 22.67, 1.3555, 135.55, 
199.4, 23.15, 1.3646, 136.46, 
199.9, 23.35, 1.3683, 136.83, 
200.9, 23.89, 1.3782, 137.82, 
201.1, 23.99, 1.3800, 138.00, 
201.4, 24.02, 1.3806, 138.06, 
201.3, 24.01, 1.3805, 138.05, 
203.6, 25.14, 1.4004, 140.04, 
204.6, 26.57, 1.4244, 142.44, 
209.5, 28.49, 1.4547, 145.47, 
208.6, 27.76, 1.4434, 144.34, 
210.7, 29.04, 1.4630, 146.30, 
211.9, 29.88, 1.4754, 147.54, 
212.2, 30.06, 1.4780, 147.80), 


ncol-4, byrow-T, 
dimnames - list(1:17, c("F", "h", "log", "10g100"))) 


forbes«-as.data.frame(X) 


plot(forbes$F, forbes$10g100) 
Forbes 数据 的 散 点 图 的 总 的 印象 是 ， 这 些 点 基本 上 , 但 并 不 精确 地 ， 落 在 一 
条 直线 上 ， 作 回归 分 析 . 
> lm.sol <- 1m(1ogi100 ^ F, data-forbes) 








> summary(1m.sol) 
得 到 
Call: 
lm(formula = log100 ^ F, data = forbes) 
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Residuals: 
Min 1Q Median 3Q Max 
-0.32261 -0.14530 -0.06750 0.02111 1.35924 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) -42.13087 3.33895 -12.62 2.17e-09 *** 
F 0.89546 0.01645 54.45 < 2e-106 *** 


Signif. codes: 0 ’***’ 0.001 "**? 0.01 ^") 0.05 ^. 0.1 ^ ^ 1 


Residual standard error: 0.3789 on 15 degrees of freedom 
Multiple R-Squared: 0.995, Adjusted R-squared: 0.9946 
F-statistic: 2965 on 1 and 15 DF, p-value: < 2.2e-16 


由 计算 结果 得 到 : 


Bo = -42.13087， 记 = 0.89546，sd(B0) = 3.33895, sd(,) = 0.01645. 


对 应 于 两 个 系数 的 P- 值 均 < 2.17 x 107, 是 非常 显著 的 . 

关于 方程 的 检验 , 残 差 的 标准 差 ， $ = 0.3789. 相关 系数 的 平方 ，R? = 0.995, 
KF F- Iih P- fE < 2.2 x 10 ,也 是 非常 显著 的 . 

该 模型 能 过 上 检验 和 P 检验 . 因此， 回 当 方 程 为 








Q = —42.13087 + 0.89546z. 


我 们 将 得 到 的 直线 方程 画 在 散 点 图 上 . 
> abline(lm.sol) 
得 到 散 点 图 和 相应 的 回归 直线 ， 如 图 6.2 所 示 . 
下 面 分 析 残 差 . 称 
à = yi — Îi = Pr i12, n 


为 回归 方程 的 残 差 . 
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图 6.2: Forbes 数据 的 散 点 图 与 回归 直线 


在 RR 软件 中 ， 函 数 residuals() 计算 回归 方程 的 残 差 .计算 残 差 ， 并 画 出 
关于 残 差 的 散 点 图 ， 如 图 6.3 所 示 . 


> y.res«-residuals(1m.sol);plot(y.res) 
> text(12,y.res[12], labels-12,adj-1.2) 


其 中 text(12,y.res[12], labels-12,adj-1.2) 是 将 第 12 号 残 差 点 标 出 . 


从 图 6.3 可 以 看 到 , 第 12 个 样本 点 可 能 会 有 问题 , 它 比 其 他 的 样本 点 的 残 差 
大 得 多 ， 因 为 其 他 点 的 残 差 的 绝对 值 都 小 于 0.35, 而 此 点 残 差 的 绝对 值 约 为 1.3， 
因此 ， 这 个 点 可 能 不 正确 ， 或 者 模型 的 差 假设 不 正确 ， 或 者 是 c? 不 是 常数 ， 等 
SE. 总之， 需要 对 这 个 问题 进行 分 析 (在 后 面 的 回归 诊断 中 会 详细 介绍 分 析 的 方 
法 ). 

这 里 作 简 单 的 处 理 ， 在 数据 中 ， 去 掉 第 12 号 样本 点 . 
> i<-1:17; forbesi2«-as.data.frame(X[i!-12, ]) 
> lmi2«-1m(logí00^F, data=forbes12) 
> summary (lm12) 
Call: 


6.1 一 元 线性 回归 311 











120 
eo 
Nc 
[^] 
9 o | 
X © 
o o o oO O 5 
© | o 
o o o O o 
Oo o 
o o 
o 
T T T 
5 10 15 
Index 


图 6.3: Forbes 数据 残 差 的 散 点 图 


lm(formula = log100 ^ F, data = forbes12) 


Residuals: 
Min 1Q Median 3Q Max 
-0.21175 -0.06194 0.01590 0.09077 0.13042 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) -41.30180 1.00038 -41.29 5.01e-16 *** 
F 0.89096 0.00493 180.73 < 2e-16 *** 


Signif. codes: 0 ’***’ 0.001 ^x? 0.01 °»? 0.05 ^. 0.1 ^ ^ 1 


Residual standard error: 0.1133 on 14 degrees of freedom 
Multiple R-Squared: 0.9996, Adjusted R-squared: 0.9995 
F-statistic: 3.266e*04 on 1 and 14 DF, p-value: < 2.2e-16 


312 第 六 章 回归 分 析 
在 去 掉 第 12 号 样本 后 ， 回 归 方 程 的 系数 没有 太 大 的 变化 ， 但 系数 的 标准 差 
和 残 差 的 标准 差 有 很 大 的 变化 ， 减 少 了 约 3 倍 左右 ， 相 关系 数 ID 也 有 提高 . 
6.2 R 软件 中 与 线性 模型 有 关 的 函数 
上 面 讲 了 一 元 回归 方程 的 方法 ,在 介绍 多 元 回归 方程 之 前 ， 先 简单 的 介绍 及 


软件 中 ， 与 线性 模型 有 关 的 函数 ， 这 些 函 数 的 大 部 分 在 前 面 已 经 用 到 过 ， 在 后 面 
的 多 元 线性 回归 中 ， 也 经 常会 遇 到 |. 








6.2.1 “基本 函数 
适应 于 多 元 线性 模型 的 基本 函数 是 mO, 其 调用 形式 是 


fitted.model <- lm(formula, data = data.frame) 
其 中 formula 为 模型 公式 . ”data.frame 为 数据 框 . 返回 值 为 线性 模型 结果 的 
对 象 存放 在 fitted.model rp. 例如 


fm2 <- lm(y ^ x1 + x2, data = production) 
适应 于 y 关于 zl 和 72 的 多 元 回归 模型 ( 隐 含 着 截 距 项 ). 
更 一 般 的 形式 为 
lm(formula, data, subset, weights, na.action, 
method - "qr", model - TRUE, x - FALSE, 
y = FALSE, qr = TRUE, singular.ok = TRUE, 
contrasts - NULL, offset, ...) 
其 中 formula 为 模型 公式 . data 为 数据 框 . subset 为 可 选择 向 量 ， 表 示 观 察 
ETE. weights 为 可 选择 向 量 ， 数 据 拟 合 的 权重 其余 见 在 线 帮助 ， 


6.2.2 ”提取 模型 信息 的 通用 函数 


lmO 函数 的 返回 值 称 为 拟 合 结果 的 对 象 , 本质 上 是 一 个 具有 类 属性 值 1m 的 
列表 ， 有 model, coeffcients , residuals 等 成 员 . lm() 的 结果 非常 简单 ， 
为 了 获得 更 多 的 信息 ， 可 以 使 用 对 mO 类 对 象 有 特殊 操作 的 通用 函数 ， 这 些 函 
数 包括 


addi coef effects kappa predict residuals 
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alias deviance family labels print step 
anova dropl formula plot proj summary 
下 面 简单 地 介绍 函数 的 使 用 方法 . 
(1) anova() 函数 . anova() 函数 的 使 用 格式 为 
anova(object,...) 
其 中 object 是 由 lm 或 glm 得 到 的 对 象 . 其 返回 值 是 模型 的 方差 分 析 表 . 
(2) coefficients() 函数 (简写 形式 为 coef ()). coefficients() 函数 (或 
coef O 函数 ) 的 使 用 格式 为 
coefficients(object, ...) 
coef(object, ...) 
其 中 object 是 由 模型 构成 的 对 象 ， 其 返回 值 是 模型 的 系数 ， 
(3) devianceO K. devianceO 函数 的 使 用 格式 为 
deviance(object, ...) 
其 中 object 是 由 模型 构成 的 对 象 ， 其 返回 值 是 模型 的 残 差 平方 和 | 
(4) formulaO 函数 . formula() 函数 的 使 用 格式 为 
formula(object, ...) 
其 中 object 是 由 模型 构成 的 对 象 ， 其 返回 值 是 模型 公式 . 
(5) plotO KÆ. plot() 函数 的 使 用 格式 为 
plot(object, ...) 
其 中 object 是 由 lm 构成 的 对 象 ， 绘制 模型 诊断 的 几 种 图 形 ， 显 示 残 差 、 拟 合 
值 和 一 些 诊断 情况 . 
(6) predict() 函数 .  predictO 函数 的 使 用 格式 为 
predict(object, newdata-data.frame) 
其 中 object 是 由 lm 构成 的 对 象 。 newdata 是 预测 点 的 数据 ， 它 由 数据 框 形 式 
输入 ， 其 返回 值 是 预测 值 和 预测 区 间 . 
(T) printO 函数 . print() 函数 的 使 用 格式 为 
print(object, ...) 
其 中 object 是 由 模型 构成 的 对 象 ， 其 返回 值 是 显示 模型 拟 合 的 结果 .一般 不 用 
printO 而 直接 用 键入 对 象 的 名 称 来 显示 . 
(8) residualsO 函数 . residualsO 函数 的 使 用 格式 为 
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residuals(object, 
type = c("working", "response", "deviance", 
"pearson", "partial"), 

其 中 object 是 由 1m 或 aov 构成 的 对 象 . type 是 返回 值 的 类 型 ， 其 返回 值 是 
模型 的 残 差 . 简单 的 命令 形式 为 resid(object). 

(9) stepO 函数 . step() 函数 的 使 用 格式 为 

step(object, ...) 

其 中 object 是 由 1m 或 glim 构成 的 对 象 . 其 返回 值 是 逐步 回归 ,根据 AIC 
(Akaike's An Information Criterion) 的 最 小 值 选择 模型 . 

(10) summary() 函数 . summary() 函数 的 使 用 格式 为 


summary(object, ...) 


其 中 object 是 由 lm 构成 的 对 象 ， 其 返回 值 是 显示 较为 详细 的 模型 拟 合 结果 ， 
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在 许多 实际 问题 中 影响 因 变 量 Y 的 自 变 量 往往 不 止 一 个 ， 通 常设 为 p 个 . 
由 于 此 时 无 法 借助 于 图 形 的 帮助 来 确定 模型 ， 所 以 仅 讨论 一 种 最 简单 但 又 普遍 的 
模型 一 多 元 线性 回归 模型 . 
6.3.1 ”数学 模型 
设 变量 Y 与 变量 Xi, X», tt5 Xp 间 有 线性 关系 
Y = Bo + Xi By XS tE, (6.18) 


KB e~ N(0, o°), Bo, B1,…, bp 和 0^ ERMER, p > 2, 称 模型 (6.18) 为 多 
元 线性 回归 模型 . 

Xt (Zi, Tiz, Zip Vi) 1 二 1,2,…,n 是 (Xi, Xo, X, Y) 的 n VO 
测 值 ， 则 多 元 线性 模型 (6.18) 可 表示 为 


Yi = Po + bitu op + bptip ei, m1 2, 40, (6.19) 





H e; € N(0,0°), 且 独 立 同 分 布 . 
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为 书写 方便 ， 常 采用 和 矩阵 形式 ， 令 


yi Bo l Zz 212 + Tip E1 

Y2 £i l za Tə 555 Tap E2 
dl | aa | | Ene ME 

Un bp 1 Tnl Tan `t Tnp En 


则 多 元 线性 模型 (6.19) 可 表示 为 
Y =Xß+e, (6.20) 


KB OY 是 由 响应 变量 构成 的 n 维 向 量 ， X 是 nx (pcd) 阶 设计 矩阵，B 是 
2 十 1 维 向 量 ，。 是 n 维 差 向 量 ， 并 且 满 足 


E(e)=0, Var(e)= o?L,. 
6.3.2 ”回归 系数 的 估计 
类 似 于 一 元 线性 回归 ， 求 参数 6 的 估计 值 5, 就 是 求 最 小 二 乘 函数 
Q(B) = (y — X8)! (y — X 8), (6.21) 


达到 最 小 的 B 值 . 
可 以 证 明 8 的 最 小 二 乘 估计 


B — (XTX)^ XTy. (6.22) 
从 而 可 得 经 验 回归 方程 为 
yO 
Pr ê= y- XP 为 残 差 向 量 . 通常 取 
ô? —éTé/(n—p- 1) (6.23) 
为 c? 的 估计 ， 也 称 为 o 的 最 小 二 乘 估计 ， 可 以 证 明 ; 


Eĉ? = o°. 


316 第 六 章 回归 分 析 


可 以 证 明 6 的 方差 估计 为 
Var(8) = o° (X X) 5. 
相应 的 Ô 的 标准 差 为 
sd(ĝ;) = ê Tam, i=0,1,...,p, (6.24) 
RF cu 是 C= (X7X) ”对 角 线 上 第 ; 个 元 素 2 
6.3.3 ”显著 性 检验 


由 于 在 多 元 线性 回归 中 无 法 用 图 形 帮 助 判断 EY) 是 否 随 X, Xo. Xp TE 
线性 变化 ， 因 而 显著 性 检验 就 显然 得 尤其 重要 . 检验 有 两 种 ， 一 种 是 回归 系数 的 
显著 性 检验 ， 粗 略 地 说 ， 就 是 检验 某 个 变量 X; 的 系数 是 否 为 0. 男 一 个 检验 是 
回归 方程 的 显著 性 检验 ， 简 单 地 说 ， 就 是 检验 该 组 数据 是 否 适 用 于 线性 方程 作 回 
IH. 


1. 回归 系数 的 显著 性 检验 


Hijo : B; = 0, H;i: B; £0, g 0, T espe 
35 Hjo 成 立时 ， 统 计量 
EMEN 
3 ô Cjj 
HP c; 是 C = (XT X) 的 对 角 线 上 第 7 个 元 素 . 对 于 给 定 的 显著 性 水 平 a, 检 
验 的 拒绝 域 为 


a t(n—p-1), 7 =0,1,---,p. 


(7;| > ta(n- p- 1), j= 0,1,..…,p. 


2. 回归 方程 的 显著 性 检验 








Ho: bo ==: = bp =0, Hi: bo, bitt, bp 不 全 为 0. 


“为 方便 起 见 ， 认 为 Bo 是 8 的 第 0 个 元 素 ， 下 标 比 从 0 开始 ， 下 同 
“通常 的 教科 书 不 考虑 po 的 检验 , 但 由 于 R 软件 可 以 提供 bo 的 检验 情况 , 所 以 这 里 7 从 
0 开始 ， 下 同 
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当 Ho 成 立时 ， 统 计量 


SSR/P 


dg SSg/(n — p — 1) 


ad F(p,;n-—p- 1), 


其 中 


$8. = 》 (lh-9), SSe = X (m-i), 


i=1 i=1 


x ES , : 
2m 2200 ji = Bo + bitia +- Pprip: 
i=1 





通常 称 SSR 为 回归 平方 和 ， 称 SSe 为 残 差 的 平方 和 . 
对 于 给 定 的 显著 性 水 平 a, 检验 的 拒绝 域 为 


F > F(pmn-p-1) 


相关 系数 的 平方 定义 为 
_ S58 
SSr’ 
用 它 来 衡量 Y 与 X, Xs Xp 之 间 相 关 的 密切 程度 ， 其 中 S57 为 总 体 离 差 平 


FM, B SS; = » (yi — 9) 并 且 满 足 


i=1 


R? 








S Sr = SSg + SSR. 


例 6.6 根据 经 验 ， 在 人 的 身高 相等 的 情况 下 ,血压 的 收缩 压 耻 与 体重 Xi (千克 让 
年 龄 Xo (岁数 ) 有 关 . 现 收集 了 13 个 男子 的 数据 ， 见 表 6.9. 试 建立 了 关于 
Xi, Xo 的 线性 回归 方程 . 
fg. R 软件 中 的 mO 同样 可 以 求 出 回归 系数 ， 并 作 相 应 的 检验 . 
下 面 是 R 软件 的 计算 过 程 
> blood«-data.frame( 
X1=c(76.0, 91.5, 85.5, 82.5, 79.0, 80.5, 74.5, 
79.0, 85.0, 76.5, 82.0, 95.0, 92.5), 
X25c(50, 20, 20, 30, 30, 50, 60, 50, 40, 55, 
40, 40, 20), 
Y= c(120, 141, 124, 126, 117, 125, 123, 125, 
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Xə Y 
50 125 
40 132 
55 123 
40 132 
40 155 
20 147 





132, 123, 132, 155, 147) 


) 
> lm.sol<-lm(Y ^ X1+X2, data-blood) 
> summary (lm. sol) 
Call: 
lm(formula = Y ^ X1 + X2, data = blood) 


Residuals: 
Min 1Q Median 3Q Max 
-4.0404 -1.0183 0.4640 0.6908 4.3274 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -62.96336 16.99976 -3.704 0.004083 +** 


X1 2.13656 0.17534 12.185 2.53e-07 *** 
X2 0.40022 0.08321 4.810 0.000713 *** 
Signif. codes: 0 ’***’ 0.001 ^x? 0.01 °»? 0.05 ^. 0.1 ^ ^ 1 


Residual standard error: 2.854 on 10 degrees of freedom 
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Multiple R-Squared: 0.9461, Adjusted R-squared: 0.9354 
F-statistic: 87.84 on 2 and 10 DF, p-value: 4.531e-07 

从 计算 结果 可 以 得 到 ， 回 归 系 数 与 回归 方程 的 检验 都 是 显著 的 ， 因 此 ， 回 归 方 程 
为 





^ 


Y = —62.96 + 2.136 X, + 0.4002 X,. 


6.3.4 参数 0 的 区 间 估 计 
与 一 元 回归 模型 一 样 ， 这 里 讨论 多 元 回归 模型 参数 区 间 佑 计 ， 
由 6 的 统计 性 质 可 知 ， 





" a inae e se 
Ti g sd(5) t(n p 1), 2 0, 1, P (6.25) 
là = sd(ĝ;) ta(n —p-!1), Bi T sd(ĝ;) taja(n — I (6.26) 


这 里 就 不 必 于 编写 相应 的 求 区 间 佑 计 的 程序 , 因为 前 面 编 的 程序 beta. int.R 
是 一 通用 程序 ， 在 这 里 仍然 可 以 使 用 . 
例 6.7 RH 6.6 中 参数 0 的 区 间 估 计 (a = 0.05). 
fS 调 入 程序 beta.int.R, 然后 求解 . 
> source("beta.int.R") 


> beta.int(lm.sol) 


Estimate Left Right 
(Intercept) -62.9633591 -100.8411862 -25.0855320 
x1 2.1365581 1.7458709 . 2.5272454 
x2 0.4002162 0.2148077 | 0.5856246 


6.3.5 ”预测 


当 多 元 线性 回归 方程 经 过 检验 是 显著 的 ， 且 其 中 每 一 个 系数 均 显著 不 为 0 
时 ， 可 用 此 方程 作 预 测 . 
给 定 X = 20 = (£01, £02, 5. - , Zop)”, 将 其 代入 回归 方程 ， 得 到 


Yo = Bo 二 Pitoi sette Do 
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XIF X = mo, Y = do 的 置信 和 度 为 1 一 a 的 预测 区 间 为 


(go — l,  $o-- 0), (6.27) 


l= taln — p — 1)ôy 1 +27 (XT X) zo. (6.28) 


例 6.8 求 例 6.6 P X = xo = (80,40)7 时 相应 Y 的 概率 为 0.95 的 预测 区 间 . 
解 : 与 一 元 回归 一 样 ， 及 软件 中 的 predict() 也 数 求 多 元 回归 预测 也 是 很 
方便 的 . 
下 面 是 R 软件 的 命令 


> new <- data.frame(xi = 80, x2 = 40) 


其 中 


> lm.pred«-predict(1m.sol, new, interval-"prediction", level-0.95) 
> lm.pred 

fit lwr upr 
[1,] 123.9699 117.2889 130.6509 


由 软件 求 得 , 9o = 123.97, 相应 的 的 概率 为 0.95 的 预测 区 间 为 [117.29, 130.65]. 
6.3.6 ”修正 拟 合 模型 


在 完成 模型 的 计算 后 ， 有 时 还 需要 根据 实际 问题 的 背景 ， 对 模型 进行 适当 的 
修正 ， 如 增加 新 的 自 变 量 ， 或 对 啊 应 变量 Y 取 对 数 或 开 方 运算 等 . 
在 R 软件 中 ,函数 update() 是 一 个 非常 方便 修正 模型 的 函数 ,该 函数 可 以 
在 原 模型 的 基础 上 ， 通 过 加 入 或 去 掉 某 些 项 来 得 到 新 模型 . 它 是 形式 是 
new.model <- update(old.model, new.formula) 


TE new.formula 中 ， 其 相应 的 名 字 由 点 “” 组成， 可 以 被 用 作 表 示 “ 旧 模型 公式 
中 相应 的 部 分 ”. 例如， 
fm5 <- lm(y ^ x1 + x2 + x3 + x4 + xb, data = production) 
fm6 <- update(fm5, . ^ . + x6) 
smf6 «- update(fm6, sqrt(.) ^ .) 
表示 五 个 变量 的 多 元 回归 ,数据 的 框架 是 production, 拟 合 一 个 附加 的 模型 ， 这 
个 模型 中 包含 第 六 个 变量 , 拟 合 不 同 的 模型 ， 在 模型 中 啊 应 变量 使 用 了 平方 根 变 
换 . 
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特别 注意 ， 如 果 data= argument 是 一 种 关于 原 调 用 模型 拟 合 函数 ， 这 个 信 
奶 是 通过 拟 合 模型 对 象 到 update() 和 它 的 同类 传递 的 . 
模型 中 的 “. ”可 能 用 在 其 它 的 函数 中 ， 但 它 有 稍微 不 同 的 意思 .例如 
fmfull <- lm(y ^ . , data = production) 
拟 合 一 个 模型 ， 其 响应 变量 y 和 回归 因子 变量 和 在 数据 结构 预测 中 其 它 变 量 . 
其 它 函 数 ， 如 探索 逐渐 增长 序列 模型 是 add1() . dropiO 和 step(). 它们 
的 名 字 已 很 好 地 表明 这 些 函 数 的 目的 ， 对 于 更 详细 的 资料 可 以 看 在 线 帮助 . 











6.3.7 ”计算 实例 


例 6.9 某 大 型 牙膏 制造 企业 为 了 更 好 地 拓展 产品 市 场 , 有 效 地 管理 库存 ,公司 董 
事 会 要 求 销售 部 门 根据 市 场 调查 ， 找 出 公司 生产 的 牙 齐 销售 量 与 销售 价格 、 广 告 
投入 等 之 间 的 关系 ， 从 而 预测 出 在 不 同 价格 和 广告 费用 下 销售 量 ， 为 此 ， 销 售 部 
研 的 研究 人 员 收集 了 过 去 30 个 销售 周期 (每 个 销售 周期 为 4A) 公司 生产 的 牙 
这 的 销售 量 、 销 售 价格 、 投 入 的 广告 费用 ， 以 及 周期 其 他 厂家 生产 同类 牙膏 的 市 
场 平 均 销售 价格 ， 如 表 6.4 所 示 ， 试 根据 这 些 数据 建立 一 个 数学 模型 分析 牙 淄 
销售 量 与 其 他 因素 的 关系 ， 为 制订 价格 策略 和 广告 投入 策略 提供 数量 依据 . 


X 6.4: 牙膏 销售 量 与 销售 价格 、 广 告 费用 等 数据 
销售 | 公司 销售 | 其 他 厂家 平 | 价格 差 | 广告 费用 | MEE 
周期 | 价格 (元 ) | 均 价格 (元 ) | (元 ) | ( 百 万 元 ) | ( 百 万 支 ) 
7.38 
8.51 
9.52 
7.50 
9.33 
8.28 
8.75 
7.87 
7.10 
8.00 


«c o nN Oo C: A Co N Ael 


上 一 
c 
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表 6.4( 续 ) : 牙膏 销售 量 与 销售 价格 、 广 告 费 用 等 数据 


销售 | 公司 销售 | 其 他 厂家 平 | 价格 差 | 广告 费用 | MEE 
周期 | 价格 (元 ) | 均 价 格 (元 ) | (5) ( 百 万 元 ) | 〈 百 万 支 ) 





11 7.89 
12 8.15 
13 9.10 
14 8.86 
15 8.90 
16 8.87 
17 9.26 
18 9.00 
19 8.75 
20 7.95 
21 7.65 
22 7.27 
23 8.00 
24 8.50 
25 8.75 
26 9.21 
27 8.21 
28 7.67 
29 7.93 
30 9.26 
分 析 





由 于 牙膏 是 生活 必需 品 ， 对 于 大 多 数 顾客 来 说 ， 在 购买 同类 产品 的 牙膏 时 ， 
更 多 地 会 关心 不 同 品牌 之 间 的 价格 差 ， 而 不 是 它们 的 价格 本 身 ， 因此， 在 研究 各 
个 因素 对 销售 量 的 影响 时 ,用 价格 差 代 蔡 公司 销售 价格 和 其 他 厂家 平均 价格 更 为 
合适 . 

模型 的 建立 与 求解 
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iL E BITBHEON Y, 价格 差 为 X1, 公司 的 广告 费 为 Xo, 假设 基本 模型 为 线性 
模型 
Y = Bo + b1Xı + bX t €. 


输入 数据 ， 调 用 R 软件 中 的 1mO 函数 求解 ， 并 用 summary() 显示 计算 结 
R (程序 名 : exam0609.R). 
> toothpaste«-data.frame( 
X1=c(-0.05, 0.25,0.60,0, 0.25,0.20, 0.15,0.05,-0.15, 0.15, 
0.20, 0.10,0.40,0.45,0.35,0.30, 0.50,0.50, 0.40,-0.05, 
-0.05,-0.10,0.20,0.10,0.50,0.60,-0.05,0, 0.05, 0.55), 
X2=c( 5.50,6.75,7.25,5.50,7.00,6.50,6.75,5.25,5.25,6.00, 
6.50,6.25,7.00,6.90,6.80,6.80,7.10,7.00,6.80,6.50, 
6.25,6.00,6.50,7.00,6.80,6.80,6.50,5.75,5.80,6.80), 
Y =c( 7.38,8.51,9.52,7.50,9.33,8.28,8.75,7.87,7.10,8.00, 
7.89,8.15,9.10,8.86,8.90,8.87,9.26,9.00,8.75,7.95, 
7.65,7.27,8.00,8.50,8.75,9.21,8.27,7.67,7.93,9.26) 


> lm.sol«-1m(Y^X1*X2, data-toothpaste) 


> summary (1m.sol) 


Call: 
lm(formula = Y ^ X1 + X2) 


Residuals: 
Min 1Q Median 3Q Max 
-0.497785 -0.120312 -0.008672 20.110844 0.581059 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) | 4.4075 0.7223 | 6.102 1.62e-06 *** 
X1 1.5883 0.2994 5.304 1.35e-05 *** 
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4.733 6.25e-05 *** 
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0.5635 0.1191 
0.01 ?*? 0.05 ^, 0.1"? 


"ub 


X2 
0 


Signif. codes: 0.001 "xx? 
Residual standard error: 0.2383 on 27 degrees of freedom 
Adjusted R-squared: 0.8776 


Pk? 


p-value: 1.845e-13 


Multiple R-Squared: 0.886, 
F-statistic: 105 on 2 and 27 DF, 
计算 结果 通过 回归 系数 检验 和 回归 方程 检验 , 由 此 得 到 销售 量 与 价格 差 与 广 


告 费 之 间 的 关系 为 
Y = 4.4075 + 1.5883X, 十 0.5635X2. 


模型 的 进一步 分 析 
为 进一步 分 析 回 归 模 型 ， 我 们 画 出 y 与 zl 和 与 x2 散 点 图 ， 从 散 点 图 上 
可 以 看 出 ， 对 于 y 与 r, 用 直线 拟 合 较 好 .而 对 于 y 与 v2, 则 用 二 次 曲线 拟 合 较 





好 ， 如 图 6.4 所 示 . 











7.0 








5.5 
X2 


T 
0.6 
La NY 


(b) 











(a) 


Tı xy 
图 6.4: a1, 22 RI y 的 散 点 图 和 拟 合 曲线 








T 





绘 出 图 6.4 的 R 命令 如 下 : 
#### 绘 c. 5 oy 的 散 点 图 和 回归 直线 
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> attach(toothpaste) 

> plot(Y^X1); abline(1m(Y^X1)) 

#### 绘 Z2 与 y 的 散 点 图 和 回归 曲线 

> lm2.sol«-lm(Y^X24I1(X2^2)) 

> x<-seq(min(X2), max(X2), len=200) 

> yX-predict(1m2.sol, data.frame(X2-x)) 

plot(Y^X2); lines(x,y) 

其 中 IQOO272) 表示 模型 中 Xs 的 平方 项 ， 即 X2. 
从 图 6.4 看 出 ， 将 销售 量 模型 改 为 





V 


y = ffo + [X4 + BaX» + bX? +E 


似乎 更 合理 . 我 们 作 相 应 的 回归 分 析 ， 

> lm.new<-update(lm.sol, .^.*I(X2^72)) 

> summary (1m.new) 

Call: 

lm(formula = Y ^ X1 + X2 + I(X2^2), data = toothpaste) 


Residuals: 
Min 1Q Median 3Q Max 
-0.40330 -0.14509 -0.03035 0.15488 0.46602 


Coefficients: 


Estimate Std. Error t value Pr(>|t|) 


(Intercept) 17.3244 5.6415 3.071 0.004951 +** 

X1 1.3070 0.3036 4.305 0.000210 *** 

X2 -3.6956 1.8503 -1.997 0.056355 . 

I(X2^2) 0.3486 0.1512 2.306 0.029341 x 

Signif. codes: 0 ’***’ 0.001 ^x? 0.01 °»? 0.05 ^. 0.1 ^ ^ 1 


Residual standard error: 0.2213 on 26 degrees of freedom 
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Multiple R-Squared: 0.9054, Adjusted R-squared: 0.8945 
F-statistic: 82.94 on 3 and 26 DF, p-value: 1.944e-13 


此 时 ， 我 们 发 现 ， 模 型 残 差 的 标准 差 $ 有 所 下 降 ， 相 关系 数 的 平方 R 有 所 上 
升 ， 这 说 明 模型 修正 是 合理 的 . 但 这 也 出 现 一 个 问题 ， 就 是 对 应 于 0» 的 P- f 
> 0.05. 为 进一步 分 析 ， 作 B 的 区 间 佑 计 . 


> source("beta.int.R") 


> beta.int(lm.new) 


Estimate Left Right 
(Intercept) 17.3243685  5.72818421 28.9205529 
X1 1.3069887  0.68290927  1.9310682 
X2 -3.6955867 -7.49886317 0.1076898 
I(X272) 0.3486117  0.03786354 0.6593598 


B 的 区 间 估 计 是 [一 7.49886317，0.1076898], 它 包含 了 0, 也 就 是 说 ， B62 的 值 可 
能 会 为 0. 
去 掉 Xs 的 一 次 项 ， 再 进行 分 析 . 
> lm2.new«-update(1m.new, .^.-X2) 
> summary (1m2.new) 
Call: 
lm(formula = Y ^ X1 + I(X2^2), data = toothpaste) 


Residuals: 
Min 1Q Median 3Q Max 
-0.485943 -0.114094 -0.004604 0.105342 0.559195 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 6.07667 0.35531 17.102 5.17e-16 *** 
X1 1.52498 0.29859 5.107 2.28e-0b5 *** 
I(X2^2) 0.04720 0.00952 4.958 3.41e-05 *** 


Signif. codes: 0 ’***’ 0.001 "**? 0.01 "x" 0.05 ^. 0.1? ^ 1 
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Residual standard error: 0.2332 on 27 degrees of freedom 
Multiple R-Squared: 0.8909, Adjusted R-squared: 0.8828 
F-statistic: 110.2 on 2 and 27 DF, p-value: 1.028e-13 


此 模型 虽然 通过 了 下 检验 和 T 检验 ,但 与 上 一 模型 对 比 来 看 ，5 ER, 





TERES 这 又 是 此 模型 的 不 足 之 处 . 
再 作 进 一 步 的 修正 ， 考 虑 xi 与 za 交互 作用 ， 即 模型 为 


Y = bo + ByX, + 2X2 + b3 X2 + ba XXa + E. 


> lm3.new<-update(lm.new, .^.*X1*X2) 

> summary (1m3.new) 

Call: 

lm(formula = Y ^ X1 + X2 + I(X2^2) + X1:X2, data = toothpaste) 


Residuals: 
Min 1Q Median 3Q Max 
-0.437250 -0.117540 0.004895 0.122634 0.384097 


Coefficients: 


Estimate Std. Error t value Pr(>|t|) 


(Intercept) 29.1133 7.4832 3.890 0.000656 *** 

X1 11.1342 4.4459 2.504 0.019153 * 

X2 -7 . 6080 2.4691 -3.081 0.004963 +** 

I(X2^2) 0.6712 0.2027 | 3.312 0.002824 +** 

X1:X2 -1.4777 0.6672 -2.215 0.036105 x 

Signif. codes: 0O ’***’ 0.001 "**? 0.01 "x" 0.05 ^. 0.1? ? 1 


Residual standard error: 0.2063 on 25 degrees of freedom 
Multiple R-Squared: 0.9209, Adjusted R-squared: 0.9083 
F-statistic: 72.78 on 4 and 25 DF, p-value: 2.107e-13 
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模型 通过 t 检验 和 下 检验 ， 并 且 6 减少 ，RR 增加 ， 因 此 ， 最 终 模型 选 为 





Y = 29.1133 + 11.1342X, — 7.6080X, + 0.6712X2 — 1.4777 X4 Xə + E. 
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6.4.1 “最 优 ” 回 归 方 程 的 选择 


在 实际 问题 中 ， 影 响 因 变量 y 的 因素 很 多 ， 人 们 可 以 从 中 挑选 若干 个 变量 建 
并 回归 方程 ， 这 便 涉及 变量 选择 的 问题 . 

一 般 来 讲 ， 如 果 在 一 个 回归 方程 中 忽略 了 对 了 有 显著 影响 的 自 变量 ， 那 么 
所 建立 的 方程 必 与 实际 有 较 大 的 偏离 ， 但 变量 选 得 过 多 ,使 用 就 不 方便 ， 特 别 当 
方程 中 含有 对 Y 影响 不 大 的 变量 时 ， 可 能 因为 SSe 的 自由 度 的 减 小 而 使 0° 的 
佑 计 增 大 ， 从 而 影响 使 用 回归 方程 作 预 测 的 精度 . 因此 适当 地 选择 变量 以 建立 一 
个 “最 优 ” 的 回归 方程 是 十 分 重要 的 . 

什么 是 “最 优 ” 回 归 方程 呢 ? 对 于 这 个 问题 有 许多 不 同 的 准则 ， 在 不 同 的 准 
则 下 “最 优 ” 回 归 方程 也 可 能 不 同 . 这 里 讲 的 “最 优 ” 是 指 从 可 供 选 择 的 所 有 变 
量 中 选 出 对 Y 有 显著 影响 的 变量 建立 方程 ， 且 在 方程 中 不 含 对 了 无 显著 影响 的 
变量 . 

在 上 述 意义 下 ， 可 以 有 多 种 方法 来 获得 “最 优 ” 回 归 方程 ， 如“ 一切 子 集 回 
归 法 ”、“ 前 进 法 ”、“ 后 退 法 ”、“ 逐 步 回 归 法 ”等 . 其 中 “逐步 回归 法 ”由 于 计 
算 机 程序 简便 ， 因 而 使 用 较为 普遍 . 


























6.4.2 ”逐步 回归 的 计算 


R 软件 提供 了 较为 方便 的 “逐步 回归 ”计算 函数 step(), 它 是 以 AIC 信息 
统计 量 为 准则 ， 通 过 选择 最 小 的 AIC 信息 统计 量 ， 来 达到 删除 或 增加 变量 的 目 
的 . 

stepO 函数 的 使 用 格式 为 

step(object, scope, scale = 0, 
direction = c("both", "backward", "forward"), 


trace = 1, keep = NULL, steps = 1000, k = 2, ...) 
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其 中 object 是 回归 模型 . scope 是 确定 逐步 搜索 的 区 域 . scale 用 于 AIC 统 
计量 . direction 确定 逐步 搜索 的 方向 ， 缺 省 值 为 "both'" 是 “一 切 子 集 回 归 
ik", "backward" 是 后 退 法 ”，"forward" 是 “前 进 法 ”. 其 他 参数 见 在 线 帮助 . 
在 这 里 不 具体 介绍 通常 概率 统计 教科 书 上 的 逐步 回归 计算 公式 , 而 是 通过 一 
个 简单 的 例子 , 介绍 如 何 使 用 R 软件 来 完成 逐步 回归 的 过 程 ， 从 而 达到 选择 “最 
优 ” 方 程 的 目的 . 
例 6.10 某 种 水 泥 在 凝固 时 放出 的 热量 了 (F/A) 与 水 泥 中 四 种 化 学 成 分 X, 
Xo, X3, Xa 有 关 ， 现 测 得 13 组 数据 ， 如 表 6.5 所 示 ， 希望 从 中 选 出 主要 的 变 
E, 22 Y 关于 它们 的 线性 回归 方程 . 


表 6.5: 数据 表 


Xo X3 X4 Y 

31 22 44 725 
54 18 22 93.1 
47 4 26 1159 
40 23 34 83.8 
66 9 12 1133 
68 8 12 1094 





f. 首先 作 多 元 线性 回归 方程 
> cement«-data.frame( 
X1=c( 7, 1, 11, 11, 7, 11, 3, 1, 2,21, 1, 11, 10), 
X2-c(26, 29, 56, 31, 52, 55, 71, 31, 54, 47, 40, 66, 68), 
X3=c( 0, 15, 8, 8, 6, 9, 17, 22, 18, 4, 23, 9, 8), 
X4-c(60, 52, 20, 47, 33, 22, 6, 44, 22, 26, 34, 12, 12), 
Y =c(78.5, 74.3, 104.3, 87.6, 95.9, 109.2, 102.7, 72.5, 
93.1,115.9, 383.8, 113.3, 109.4) 
) 
> lm.sol«-lm(Y ^ X1+X2+X3+X4, data=cement) 
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3 
`} 
qi 


> summary (1m.sol) 
Call: 
lm(formula = Y ^ X1 + X2 + X3 + X4, data = cement) 


Residuals: 
Min 1Q Median 3Q Max 
-3.1750 -1.6709 0.2508 1.3783 3.9254 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 62.4054 70.0710 0.891 0.3991 


X1 1.5511 0.7448 | 2.083 0.0708 . 

X2 0.5102 0.7238 0.705 0.5009 

X3 0.1019 0.7547 0.135 0.8959 

X4 -0.1441 0.7091 -0.203 0.8441 

Signif. codes: 0 ’***’ 0.001 "**? 0.01 °»? 0.05 ^. 0.1? ^ 1 


Residual standard error: 2.446 on 8 degrees of freedom 
Multiple R-Squared: 0.9824, Adjusted R-squared: 0.9736 
F-statistic: 111.5 on 4 and 8 DF, p-value: 4.756e-07 


从 上 述 计算 中 可 以 看 到 ， 如 果 选 择 全 部 变量 作 回归 方程 ,效果 是 不 好 的 . 
为 回归 方程 的 系数 全 部 都 没有 通过 检验 . 


下 面 用 函数 step() 作 逐 步 回归 . 


> lm.step«-step(1m.sol) 
Start:  AIC- 26.94 
Y ~ X1 + X2 + X3 + X4 


Df Sum of Sq RSS AIC 
- X3 1 0.109 47.973 24.974 
- X4 1 0.247 48.111 25.011 
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- X2 1 2.972 50.836 25.728 


<none> 47.864 26.944 
- X1 1 25.951 73.815 30.576 


Step: AIC= 24.97 
Y^ X1 + X2 + X4 


Df Sum of Sq RSS AIC 


<none> 47.97 24.97 
- X4 1 9.93 57.90 25.42 
- X2 1 26.79 74.76 28.74 


- X1 1 820.91 868.88 60.63 


从 程序 运行 结果 可 以 看 到 ， 用 全 部 变量 作 回 归 方 程 时 ， AIO 值 为 26.94. 接 
下 来 显示 的 数据 表 告 诉 你 ， 如 果 去 掉 变 量 Xs, 得 到 回归 方程 的 AIC 值 为 24.974. 
如 果 去 掉 变 量 X4, 得 到 回归 方程 的 AIC 值 为 25.011. 后 面 的 类 推 ， 由 于 去 掉 变 
量 Xs 可 以 使 AIC 达到 最 小 , 因此 ，R 软件 自动 去 掉 变 量 Xa, 进行 下 一 轮 计算 . 


在 下 一 轮 计算 中 ， 无 论 去 掉 哪 一 个 变量 ， AIC 值 均 会 升 高 ， 因 此 R 软件 终 
止 计算 ， 得 到 “最 优 ” 的 回归 方程 . 


下 面 分 析 一 下 计算 结果 . 用 函数 summaryO 提取 相关 信息 . 


> summary (lm.step) 
Call: 
lm(formula = Y ^ X1 + X2 + X4, data = cement) 


Residuals: 
Min 1Q Median 3Q Max 
-3.0919 -1.8016 0.2562 1.2818 3.8982 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 71.6483 14.1424 5.066 0.000675 *** 
X1 1.4519 0.1170 12.410 5.78e-0T7 *** 
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X2 0.4161 0.1856 2.242 0.051687 . 
X4 -0.2365 0.1733 -1.365 0.205395 
Signif. codes: 0 ’***’ 0.001 "x? 0.01 "x" 0.05 ^. 0.1? ^ 1 


Residual standard error: 2.309 on 9 degrees of freedom 
Multiple R-Squared: 0.9823, Adjusted R-squared: 0.9764 
F-statistic: 166.8 on 3 and 9 DF, p-value: 3.323e-08 


由 显示 结果 看 到 ， 回 归 系 数 检验 的 显著 性 水 平 有 很 大 提高 ， 但 变量 X, X, 
系数 检验 的 显著 性 水 平 仍 不 理想 ， 下 面 如 何 处 理 呢 ? 

在 R 软件 中 , 还 有 两 个 函数 可 以 用 来 作 逐 步 回 归 . 这 两 个 函数 是 ada O 和 
drop10. 它们 的 使 用 格式 为 


addi(object, scope, ...) 
dropi(object, scope, ...) 


addi(object, scope, scale-0, test-c("none", "Chisq"), 
k-2, trace-FALSE, ...) 
dropi(object, scope, scale-0, test-c("none", "Chisq"), 


k-2, trace-FALSE, ...) 


addi(object, scope, scale-0, test-c("none", "Chisq", "F"), 
x-NULL, k-2, ...) 
dropi(object, scope, scale-0, all.cols-TRUE, 
test-c("none", "Chisq", "F"), k-2, ...) 
其 中 object 是 由 拟 合 模型 构成 的 对 象 . scope 是 模型 考虑 增加 或 去 掉 项 构成 
的 公式 . scale 是 用 于 计算 C, 的 残 差 的 均 方 估计 值 ， 缺 省 值 为 0 NULL. 其 他 
见 在 线 帮助 ， 
下 面 用 drop1() 计算 . 
> drop1(lm.step) 


Single term deletions 
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Model: 
Y ~ X1 + X2 + X4 
Df Sum of Sq RSS AIC 


<none> 47.97 24.97 
X1 1 820.91 868.88 60.63 
X2 1 26.79 74.76 28.74 
X4 1 9.93 57.90 25.42 


从 运算 结果 来 看 ， 如 果 去 掉 变 量 vu AIC 值 会 从 24.97 增加 的 25.42, 是 增加 
的 最 少 的 . 另外 , BR AIC 准则 外 , 残 差 的 平方 和 也 是 逐步 回归 的 重要 指标 之 一 ， 
从 直观 来 看 ， 拟 合 越 好 的 方程 ， 残 差 的 平方 和 应 越 小 . 去 掉 变 量 Xa. 残 差 的 平方 
和 上 升 9.93, 也 是 最 少 的 . 因此 ， 从 这 两 项 指标 来 看 ， 应 该 再 去 掉 变 量 X. 
> lm.opt«-1m(Y ^ X1*X2, data-cement); Summary(lm.opt) 

Call: 
lm(formula = Y ^ X1 + X2, data = cement) 





Residuals: 
Min 1Q Median 3Q Max 
-2.893 -1.574 -1.302 1.362 4.048 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 52.57735 2.28617 23.00 5.46e-10 *** 


X1 1.46831 0.12130 12.11 2.69e-07 *** 
X2 0.66225 0.04585 14.44 5.03e-08 +*** 
Signif. codes: 0 ’***’ 0.001 "**? 0.01 "x" 0.05 ^. 0.1 ^^ 1 


Residual standard error: 2.406 on 10 degrees of freedom 
Multiple R-Squared: 0.9787, Adjusted R-squared: 0.9744 
F-statistic: 229.5 on 2 and 10 DF, p-value: 4.407e-09 


这 个 结果 应 该 还 是 满意 的 ， 因 为 所 有 的 检验 均 是 显著 的 . 最 后 得 到 “最 优 ” 
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的 回归 方程 为 


^ 


Y = 52.58 + 1.468 X; + 0.6622 X... 


6.5 回归 诊断 


6.5.1 ”什么 是 回归 诊断 


在 前 面 ， 我 们 给 出 了 利用 逐步 回归 来 选择 对 因 变 量 Y 影响 最 显著 的 自 变 量 
进入 回归 方程 的 方法 ， 并 且 还 可 以 利用 AIC 准则 或 其 他 准则 来 选择 最 佳 回 归 模 
型 . 但 是 这 些 只 是 从 选择 自 变 量 上 来 研究 ， 而 没有 对 回归 模型 的 一 些 特性 做 更 进 
一 步 的 研究 ， 并 且 没 有 研究 一 引起 异常 样品 问题 ,异常 样品 的 存在 往往 会 给 回归 
模型 带 来 不 稳定 .为 此 ， 人 们 提出 所 谓 回归 诊断 的 问题 (regression diagnostics), 
其 主要 内 容 有 : 

(1) 关于 误差 项 是 否 满足 

(a) 独立 性 ， 

(b) 等 方差 性 ; 

(c) ESH. 

(2) 选择 线性 模型 是 否 合适 ? 

(3) 是 否 存 在 异常 样本 ? 

(4) 回归 分 析 的 结果 是 否 对 某 些 样本 的 依赖 过 重 ? 也 就 是 说 ,回归 模型 是 否 具 备 
稳定 性 ? 

(5 自 变 量 之 间 是 否 存在 高 度 相 关 ? 即 是 否 有 多 重 共 线 性 问题 存在 ? 

下 面 的 例子 充分 说 明了 回归 诊断 的 重要 性 . 
fj 6.11 图 的 有 用 性 (Anscomber, 1973) 

表 6.6 给 出 的 四 组 人 造 数据 ， 每 组 数据 集 由 11 对 点 (Xi, Yi) AR, WAT 
简单 线性 模型 


























Yi = Po + Biti + ei 
试 分 析 四 组 数据 是 否 通 过 回归 方程 的 检验 , 并 用 图 形 分 析 每 组 数据 的 基本 情况 . 
解 : 输入 数据 ， 作 回归 分 析 (程序 名 ;exam0611.R). 


Anscombe«-data.frame( 


X=c(10.0, 8.0, 13.0, 9.0, 11:0, 14.0, 6.0, 4.0, 12.0, 7.0, 5.0), 





数据 
z 1-3 
x 
Í 10.0 
2 8.0 
3 13.0 
4 9.0 
5 11.0 
6 14.0 
7 6.0 
8 4.0 
9 12.0 
10 7.0 
11 5.0 
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表 6.6: Anscomber 数据 


数 据 组 号 

1 2 3 

Y Y Y 
8.04 9.14 7.46 
6.95 8.14 6.77 
7.58 8.74 12.74 
8.81 8.77 7.11 
8.33 9.26 7.81 
9.96 8.10 8.84 
7.24 6.13 6.08 
4.26 3.10 5.39 
10.84 9.13 8.15 
4.82 7.26 6.44 


5.68 4.74 5.73 


19.0 
8.0 
8.0 
8.0 
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Y1-c(8.04,6.95, 7.58,8.81,8.33,9.96,7.24,4.26,10.84,4.82,5.68), 
Y2-c(9.14,8.14, 8.74,8.77,9.26,8.10,6.13,3.10, 9.13,7.26,4.74), 
Y32c(7.46,6.77,12.74,7.11,7.81,8.84,6.08,5.39, 8.15,6.44,5.73), 
X4-c(rep(8,7), 19, rep(8,3)), 


Y42c(6.58,5.76,7.71,8.84,8.47,7.04,5.25,12.50, 5.56,7.91,6.89) 


) 


summary(lm(Y1^X, data-Anscombe)) 


summary(lm(Y2^X, data-Anscombe)) 


summary (lm(Y3^X, data-Anscombe)) 


summary (1lm(Y4^X4,data-Anscombe)) 


这 四 组 数据 的 计算 结果 由 表 0.7 所 示 (最 多 有 0.01 的 误差 ) Mos 6.7 所 列 结 
果 ， 可 以 说 明 ， 这 四 组 数据 全 部 能 通过 模型 检验 和 方程 的 系数 检验 . 由 于 每 个 数 
据 集 得 到 的 各 种 统计 量 的 值 是 相同 的 ， 因 此， 可 能 会 认为 每 个 数据 集合 对 于 线性 
模型 会 同等 的 适用 ， 但 事实 确 非 如 此 . 
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表 6.7: 四 组 数据 的 计算 结果 


系数 估计 值 标准 差 t- {E P- fH 
Bo 3.0 1.125 2.67 0.026 
Bi 0.5 0.118 4.24 0.0022 

方程 | 62124, R? = 0.667, F = 17.99, P = 0.002 





我 们 画 出 四 组 数据 的 散 点 图 和 相应 的 回归 直线 ， 如 图 6.5 所 示 ， 从 图 形 来 
看 ， 这 四 组 数据 是 完全 不 同 的 . 

第 一 个 数据 集合 , 见 图 6.5(a). 如 果 简 单线 性 回归 模型 合适 的 话 , 这 就 是 我 们 
期 望 看 到 的 数据 集合 . 图 6.5(b) 给 出 第 二 个 数据 集合 , 它 给 出 一 个 不 同 的 结论 ， 
即 基于 简单 线性 回归 分 析 是 不 正确 的 ， 而 一 条 光滑 曲线 ， 可 能 是 二 次 多 项 式 ， 可 
以 以 较 小 的 剩余 变异 拟 合 数据 . 
> lm2.sol«-lm(Y2^X«I(X^2), data-Anscombe); summary(1m2.s01) 

Call: 
lm(formula = Y2 ^ X + I(X^2), data = Anscombe) 





Residuals: 
Min 1Q Median 3Q Max 
-0.0013287 -0.0011888 -0.0006294 20.0008741 0.0023776 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -5.9957343 0.0043299  -1385  «2e-16 *** 


X 2.7808392 0.0010401 2674  «2e-16 *** 
TOX^ 25 -0.1267133  0.0000571 -2219  «2e-16 *** 
Signif. codes: 0 ’***’ 0.001 "**? 0.01 "x" 0.05 ^. 0.1 ^^ 1 


Residual standard error: 0.001672 on 8 degrees of freedom 
Multiple R-Squared: 1, Adjusted R-squared: 1 
F-statistic: 7.378e*06 on 2 and 8 DF, p-value: < 2.2e-16 
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(c) 数据 3 (d) 数据 4 
图 6.5: Anscombe 数据 的 散 点 图 
因此 ， 回 归 方程 为 
y = —5.9957343 十 2.7808392x: — 0.1267133z? 


更 合理 ( 见 图 6.6(a)). 
图 6.5(c) 表示 , 简单 回归 的 描述 对 于 大 部 分 数据 是 正确 的 , 但 一 个 样本 距离 
拟 合 回归 直线 太 远 . 这 称 为 异常 值 问题 . 很 可 能 需要 从 数据 集合 中 删除 那个 与 其 
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他 数据 不 匹配 的 数据 样本 回归 需要 根据 剩 下 的 10 个 样本 重新 拟 合 . 
> i<-1:11; Y31«-Anscombe$Y3[i!-3]; X3«-Anscombe$X[i!-3] 

> lm3.sol«-lm(Y317X3); summary(1m3.so1l) 

Call: 

lm(formula = Y31 ^ X3) 


Residuals: 
Min 1Q Median 3Q Max 
-0.0060173 -0.0012121 -0.0010173 -0.0008225 0.0140693 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 4.0106277 0.0057115 702.2 <2e-16 *** 
X3 0.3450433  0.0006262 551.0 «2e-16 *** 


Signif. codes: 0 ’***’ 0.001 "**? 0.01 "x" 0.05 ^. 0.1 ^^ 1 


Residual standard error: 0.006019 on 8 degrees of freedom 
Multiple R-Squared: 1, Adjusted R-squared: 1 
F-statistic: 3.036e+05 on 1 and 8 DF, p-value: < 2.2e-16 


得 到 的 线性 回归 方程 为 
y = 4.0106277 + 0.3450433«. 


图 6.6(b) 绘 出 修正 后 的 直线 方程 . 

最 后 一 个 数据 集合 ( 见 6.5(d)). 它 与 上 述 三 个 不 同 ， 没 有 足够 的 信息 来 对 拟 
合 模型 作出 判断 . 斜率 参数 的 估计 值 1 很 大 程度 上 由 ys 的 值 决定 . 如 果 第 8 号 
样本 被 删除 ， 则 不 能 估计 £u. 因此， 我 们 无 法 相信 这 个 一 个 综合 分 析 ， 它 对 单个 
样本 如 此 依赖 . 

在 R 软件 中 ， 下 人 列 函 数 


influence.measures rstandard rstudent dffits 








cooks.distance dfbeta dfbetas covratio 


hatvalues hat 
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(a) 数据 2, 采用 二 次 拟 合 (b) 数据 3, 去 掉 一 个 样本 


图 6.6: Anscombe 数据 修正 后 的 回归 曲线 
与 回归 诊断 有 关 ， 关 于 函数 的 使 用 方法 ， 在 讲 到 相关 内 容 时 ， 再 具体 的 介绍 . 
6.5.2 RŽ 
在 利用 最 小 二 乘 原理 求 回 归 模 型 时 ， 对 残 差 实际 上 是 做 了 独立 性 、 等 方差 性 
和 正 态 性 的 假设 . 但 对 实际 上 的 p 十 1 个 变量 的 n 组 样本 数据 所 求 得 的 回归 模型 
的 残 差 ， 是 否 满足 这 三 个 性 质 还 应 该 进行 讨论 . 在 讨论 残 差 的 检验 问题 之 前 ， 首 
先 讨 论 残 差 . 
1. 普通 残 差 
设 线性 回归 模型 为 
Y-X-e, (6.29) 
其 中 AÉBpWABEUNAEJnfIEmE, X 是 n x (p 十 1) Mitt, 0 
Dp 十 1 维 向 量 ，e 是 n 维 误 差 向 量 . 
回归 系数 的 估计 值 
gcn Tx (6.30) 


拟 合 值 Y 为 
F = XÊ = X (XTX) ` XTY = HY, (6.31) 
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其 中 
HEKE A X, (6.32) 


PKH 为 帽子 矩阵 “ 残 差 为 


ê=Y -Y —(I— HyY. (6.33) 


R 软件 中 的 residuals() 函数 (或 resid() 函数 ) 提供 了 模型 残 差 的 计算 ， 其 使 
用 方式 为 


residuals(object, ...) 
resid(object, ...) 
其 中 object 为 回归 模型 . 


在 得 到 残 差 后 ， 可 以 对 残 差 进 行 检验 ， 如 正 态 性 检验 等 . 
例 6.12 对 例 6.5(Forbes 数据 ) 得 到 回归 模型 得 到 的 残 差 作 W 正太 性 检验 . 
解 :在 计算 完 例 6.5 的 回归 模型 后 ， 计 算 其 残 差 ， 并 用 shapiro.testO Hi 
数 ( 见 第 三 章 3.2 节 ) 作 残 差 的 正 态 性 检验 . 
> y.res«-residuals(1m.sol) 
> shapiro.test(y.res) 
Shapiro-Wilk normality test 
data: y.res 
W = 0.5465, p-value = 3.302e-06 
因此 ， 残 差 不 满 足 正 态 性 假设 . 
在 去 掉 第 12 号 样本 后 ， 再 对 所 得 到 回归 模型 的 残 差 进行 正 态 性 检验 . 
> y12.res«-residuals(1m12) 
> shapiro.test(y12.res) 
Shapiro-Wilk normality test 
data: y12.res 
W = 0.9222, p-value = 0.1827 


能 通过 正 态 性 检验 ， 因 此 ， 去 掉 第 12 号 样本 点 还 是 合理 的 . 


2. 标准 化 (内 学 生化 ) 残 差 
4 因为 向 量 Y 被 HERA, ZR Y, 由 此 得 名 
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由 差 向 量 = 的 性 质 ， 得 到 





E(£)—0,  Var(£) = o?(I — H). (6.34) 
因此 ， 对 每 个 有 » 
Ei 

EUT-UE ~ AN(0,1), (6.35) 


其 中 hg 是 矩阵 H 对 角 线 上 的 元 素 . 

用 6? (IL (6.23)) 作为 o? 的 佑 计 值 ， 称 

Êi 
2 OV1— hi 

为 标准 化 残 差 (standardized residual), 或 者 称 为 内 学 生化 残 差 (internally studen- 
tized residual). 这 因为 o? 的 估计 中 用 了 包括 第 i 个 样本 在 内 的 全 部 数据 ， 由 式 
(6.35) 可 知 ， 标 准 化 残 差 ri 近似 服从 标准 正 态 分 布 . 

及 软件 中 ， 函 数 rstandard() 计算 回归 模型 的 标准 化 (内 学 生化 ) 残 差 ， 其 
使 用 格式 为 


rstandard(model, infl = lm.influence(model, do.coef = FALSE), 


(6.36) 


sd = sqrt(deviance(model)/df.residual(model)), ...) 
其 中 model 是 由 lm 或 glm 生成 的 对 象 . inf1l1 是 由 lm.influence 返回 值得 到 
的 影响 结构 .sd 是 模型 的 标准 差 . 
3. 外 学 生化 残 差 
若 记 删除 第 i 个 样本 数据 后 ， 由 余下 的 n — 1 个 样本 数据 求 得 的 回归 系数 为 
Bw, fik o? 的 估计 值 ， 有 
1 MEX ND 
0 eget »—2 2; (Y x Zibo) ; (6.37) 
jzfi 
其 中 X; 为 设计 矩阵 X 的 第 7 行 . 称 
a (ên) = ĉi 
PRS EET 
为 学 生化 残 差 (studentized residual), 或 者 称 为 外 学 生化 残 差 (externally studen- 


tized residual). 


R 软件 中 ,函数 rstudent () 计算 回归 模型 的 (外 ) 学 生化 残 差 ， 其 使 用 格式 


(6.38) 


为 
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rstudent (model, infl = lm.influence(model, do.coef = FALSE), 


res = infl$wt.res, ...) 


其 中 model 是 由 lm 或 glm 生成 的 对 象 . infl 是 由 lm.influence 返回 值得 到 
的 影响 结构 . res 是 模型 残 差 . 
下 面 介 绍 用 残 差 图 检验 残 差 的 方法 . 


6.5.3 ÆR 

以 残 差 6; 为 纵 坐 标 ， 以 拟 合 值 如 或 对 应 的 数据 观测 序号 i 或 数据 观测 时 间 
为 横 坐 标的 散 点 图 统 自然 数 为 残 差 图 ， 残 差 图 是 进行 模型 诊断 的 重要 工具 ， 

1. 回归 值 Y 与 残 差 的 残 差 图 


为 检验 建立 的 多 元 线性 回归 模型 是 否 合适 , 可 以 通过 回归 值 Y 与 残 差 的 散 点 
图 来 检验 . 其 方法 是 画 出 回归 值 Y 与 普通 残 差 的 散 点 图 ((Y,é;), i = 1,2, n), 
或 者 画 出 回归 值 Y 与 标准 残 差 的 散 点 图 (Yor), $— 1,2,…,n), 其 图 形 可 能 会 
出 现下 面 三 种 情况 (如 图 6.7 所 示 ). 


残 差 残 差 残 差 











Y 3 | Y 


(a) 正常 情况 (b) 异 方差 情况 (c) 非 线性 情况 
图 6.7: 回归 值 Y. 与 残 差 的 散 点 图 





对 于 图 6.7(a) 的 情况 ,不论 回归 值 Y 的 大 小 ， 而 残 差 6; (或 ri) 具有 相同 的 
分 布 ， 并 满足 模型 的 各 假设 条 件 ， 对 于 图 6.7(b) 的 情况 ， 表 示 回 归 值 Y 的 大 小 
与 残 差 的 波动 大 小 有 关系 ， 即 等 方差 性 的 假设 有 问题 ， 对 于 图 6.7(c), 表示 线性 
模型 不 合适 ， 应 考虑 非 线 性 模型 . 

对 于 图 6.7(a), 如 果 大 部 分 点 都 落 在 中 间 部 分 , 而 只 有 少数 几 个 点 落 在 外 边 ， 
则 这 些 点 对 应 的 样本 ， 可 能 有 异常 值 存在 . 

f 6.13 i] 6.6 普通 残 差 的 散 点 图 和 标准 化 残 差 的 散 点 图 . 
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解 : 在 计算 出 例 6.6 的 回归 模型 后 ， 计 算 普 通 残 差 和 标准 化 残 差 ， 并 画 出 相 
应 的 散 点 图 R 的 命令 如 下 : 
#### 男 残 差 图 


> y.res«-resid(1m.sol); y.fit«-predict(1m.sol) 

















» plot(y.res^y.fit) 
#### 画 标 准 化 残 差 图 


> y.rst«-rstandard(1m.sol) 

















> plot(y.rst^y.fit) 
绘 出 的 图 形 如 图 6.8(a) 、 (b) 所 示 . 








y.rst 
| l l l | 


-1.5 -1.0 -0.5 00 05 1.0 1.5 
| 

















o 
T T T T T T T T 
120 130 140 150 120 130 140 150 





y.fit y.fit 


(a) 残 差 图 (b) 标准 化 残 差 图 
图 6.8: 例 6.6 的 残 差 图 





从 图 6.8 可 以 看 出 ， 残 差 具 有 相同 的 分 布 且 满足 模型 的 各 假设 条 件 . 
再 仔细 分 析 ， 当 残 差 服从 正 态 分 布 的 假设 成 立时 ， 标 准 化 残 差 应 近似 在 服从 
标准 正 态 分 布 .根据 正 态 分 布 的 性 质 ， 若 随机 变量 X ~ N(Uuwc ), 则 有 


P{u — 20 < X < u+ 20) = 0.954. 


也 就 是 说 ， 对 于 标准 化 残 差 ， 应 该 有 9596 的 样本 点 落 在 区 间 [一 2, 2?] 中 ， 另 外 ， 
可 以 证 明 ， 拟 合 值 了 与 残 差 相互 独立 ， 因 而 与 标准 化 残 差 71, 72, …, rn 也 独 
立 ， 所 以 ， 如 果 以 拟 合 值 Y; 为 横 坐 标 ， m 为 纵 坐标 ， 那 么 平面 上 的 点 (Pi ri), 
i—1,2, n 大 致 应 落 在 宽度 为 4 的 水 平 带 |r;| < 2 的 区 域内 ,， 且 不 呈现 任何 趋 
W. 从 这 种 角度 看 ， 通 过 标准 化 残 差 图 ， 更 容易 诊断 出 回归 模型 是 否 出 现 问题 . 
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回 过 来 ， 再 看 图 6.8(b), 所 有 点 均 在 宽度 为 4 的 水 平 带 |r;| < 2 F, BE 
现任 何 趋势 ， 因 此 ， 例 6.6 的 模型 应 该 是 合适 的 . 
例 6.14 某 公 司 为 了 研究 产品 的 营销 策略 ， 对 产品 的 销售 情况 进行 了 调查 . dEY 
为 某 地 区 该 产品 的 家 庭 人 均 购 买 量 (党 位: 元 ), X 为 家 庭 人 均 收入 (单位 : XL). 
表 6.8 给 出 了 5 和 8 个 家 庭 的 数据 ， 试 通过 这 些 数据 建立 了 5 X 的 关系 式 . 
表 6.8: 某 地 区 家 庭 人 均 收 入 与 人 均 购买 量 数 据 
^ xa) YA 





1 770 1.74 
2 724 4.10 
3 808 3.94 
4 790 0.96 
5 783 3.29 
6 406 0.44 
7 1242 3.24 
8 658 2.14 
9 1746 5.71 
10 468 0.64 
11 1114 1.90 
12 413 0.51 
13 1787 8.33 
14 3560 14.94 
15 1495 5.11 
16 2221 3.85 
17 1526 3.93 
18 


解 : 输入 数据 ， 作 线性 回归 模型 (程序 名 :exam0614.B) 
X«-scan() 
679 292 1012 493 582 1156 2997 2189 1097 2078 
1818 1700 747 2030 1643 414 354 1276 745 435 
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540 874 1543 1029 710 1434 2837 1748 1381 1428 

1255 1777 370 2316 1130 463 770 724 $3808 790 
783 406 1242 26058 1746 468 1114 413 1787 3560 
1495 2221 1526 


Y«-scan() 

0.79 0.44 0.56 0.79 2.70 3.64 4.73 9.50 5.34 6.85 
5.84 5.21 3.25 4.43 3.16 0.50 0.17 1.88 0.77 1.39 
0.56 1.56 5.28 0.64 4.00 0.31 4.20 4.88 3.48 7.58 
2.63 4.99 0.59 8.19 4.79 0.51 1.74 4.10 3.94 0.96 
3.29 0.44 3.24 2.14 5.71 0.64 1.90 0.51 8.33 14.94 
5.11 3.85 3.93 


lm.sol«-lm(Y^X); summary(1m.sol) 


得 到 
Call: 
lm(formula = Y ^ X) 
Residuals: 
Min 1Q Median 3Q Max 


-4.1399 -0.8275 -0.1934 1.2376 3.1522 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -0.8313037 0.4416121 -1.882 0.0655 . 
X 0.0036828 00.0003339 11.030 4.11e-15 *** 


Signif. codes: 0 ’***’ 0.001 ^x? 0.01 °»? 0.05 ^. 0.1? ^ 1 


Residual standard error: 1.577 on 51 degrees of freedom 
Multiple R-Squared: 0.7046, Adjusted R-squared: 0.6988 
F-statistic: 121.7 on 1 and 51 DF, p-value: 4.106e-15 
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回归 方程 通过 t 检验 和 下 检验， 所 以 Y 对 六 的 一 元 经 验 回归 方程 为 
Y = —0.8313 + 0.003683X. 
再 作 回归 诊断 ， 画 出 标准 化 残 差 散 点 图 
y.rst«-rstandard(1m.sol); y.fit«-predict(lm.sol) 


plot(y.rst^y.fit) 
abline(0.1,0.5);abline(-0.1,-0.5) 





























其 图 形 由 图 6.9(a) 所 示 . 
a o $ o 
ó ? "i E 5 
tel o 
g o oo 
o o- i o d do o o 
E. 4 e z o9 9 o o ie o 
s & el 5 9o x " o S 
1 
Dam 
2 
o 
í 本 o 
T T T T T T T T T T 
0 2 4 6 8 10 12 1.0 1.5 2.0 2.5 3.0 3.5 4.0 
y.fit yn.fit 
(a) 异 方差 情况 (b) 变换 后 的 情况 


图 6.9: 例 6.6 的 标准 化 残 差 图 


直观 上 容易 看 出 , 残 差 图 从 左 向 右 逐 渐 散 开 呈 漏斗 状 , 这 是 残 差 的 方差 不 相 
等 的 一 个 征兆 ， 考虑 对 响应 变量 Y 作 变 换 ， 作 开 方 运算 ， 相 应 的 R 程序 为 
lm.new«-update(1m.sol, sqrt(.)^.); coef(lm.new) 


其 中 update 是 模型 修正 函数 . coef 是 提取 回归 系数 ， 计算 结果 为 


(Intercept) X 
0.582225917 0.000952859 
由 此 得 到 经 验方 程 


VY = 0.582225917 + 0.000952859 X. 
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即 


Bs 
| 


= (0.582225917 + 0.000952859 X )? 
= 0.338987 + 0.001109558X + 9.079403 x 107 X?. 


再 画 出 变换 后 的 标准 化 残 差 散 点 图 
yn.rst«-rstandard(lm.new); yn.fit«-predict(1m.new) 


plot(yn.rst^yn.fit) 
其 图 形 由 图 6.9(b) Brzs. 散 点 图 的 趋势 有 较 大 改善 . 
2. 残 差 的 Q-Q 图 
在 第 三 章 介绍 了 检验 正 态 分 布 的 方法 一 Q-Q 图 . 这 里 可 以 用 Q-Q 图 的 方法 
检验 残 差 的 正 态 性 . 
设 so 是 残 差 & 的 次 序 统 计量 ，i = 1,2,…,nn 令 


i— 0.375 
p= 87! ; = 1,2,- 
Q(i) (mm). 1 3:3 T. 








其 中 B(x) 为 标准 正 态 分 布 N(0, 1) BAISER D (v) 为 反 函 数 . 称 ao) 为 êo 
的 期 望 值 . 

可 以 证 明 , Æ êl = 1,2,…,n) 是 来 自 正 态 分 布 总 体 的 样本 ,， 则 点 《qd £05) 
(i — 1,2,.…,n) 应 在 一 条 直线 上 ,因此 ， 若 残 差 的 正 Q-Q 图 中 的 点 的 大 致 趋势 
明显 地 不 在 一 条 直线 上 ,， 则 有 理由 怀疑 对 误差 的 正 态 性 假设 的 合理 性 ; 否则 可 认 
为 误差 的 正 态 性 假设 是 合理 的 . 

用 R 软件 画 正 态 Q-Q 残 差 图 非常 简单 ， 只 需 一 个 命令 

plot(model, 2) 

其 中 model 是 由 1m 生成 的 对 象 . 

3. 以 自 变量 为 横 坐 标的 残 差 图 

以 每 个 X < 7 € p) 的 各 个 观测 值 ry < i Xn) 为 点 的 横 坐 标 ， 即 以 自 
变量 为 横 坐 标的 残 差 图 ， 与 拟 合 值 Y 为 模 坐 标的 残 差 图 一 样 ， 满 意 的 残 差 图 呈 
MA 6.7(a) 的 水 平 带 状 . 如果 图 形 呈 现 图 6.7(b) 的 形状 ， 则 说 明 误 差 是 等 方差 
的 假设 不 合适 . FERR 6.7(c) 的 形状 ， 则 需要 在 模型 中 添加 X; 的 高 次 项 ,或 
者 对 了 做 变换 . 
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例 6.15 画 出 例 6.6 关于 自 变 量 为 模 坐标 的 残 差 图 . 
解 : 在 作 完 成 回归 模型 后 ， 计 算 残 差 ， 并 画 出 图 形 . 
> y.res«-resid(lm.sol) 


> plot(y.res^x1); plot(y.res^x2) 


























图 形 如 图 6.10 所 示 . 
B n v i M M M » B M 
x1 x2 
(a) 以 X, 为 横 坐 标 (b) 以 X» 为 横 坐 标 


图 6.10: 例 6.6 的 以 Xi 、 Xo 为 横 坐 标的 残 差 图 





从 图 6.10 可 以 看 出 ， 回 归 模 型 效果 是 好 的 . 
在 RR 软件 中 ，plot() 函数 可 以 画 出 回归 模型 的 残 差 图 ， 其 使 用 格式 为 
plot(x, which = 1:4, 





caption = c("Residuals vs Fitted", "Normal Q-Q plot", 
"Scale-Location plot", "Cook's distance plot"), 

panel - points, 

sub.caption = deparse(x$call), main = "", 

ask = prod(par("mfcol"))«length(which)&&dev.interactive(), 


5 


id.n = 3, labels.id = names(residuals(x)), cex.id = 0.75) 


其 中 x 是 线性 回归 模型 ， which 是 1 至 4 的 全 部 或 某 个 子 集 ，1 表示 画 普 通 残 
差 与 拟 合 值 的 残 差 图 ， 2 表示 画 正 态 Q-Q 的 残 差 图 ; 3 表示 画 标准 化 残 差 的 开 
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方 与 拟 合 值 的 残 差 图 ，4 表示 画 Cook 统计 量 (在 后 面 介绍 ) 的 残 差 图 . caption 
是 图 题 的 内 容 ， 其 余 见 在 在 线 帮助 . 


6.5.4 ”影响 分 析 


所 谓 影响 分 析 就 是 探查 对 估计 或 有 异常 大 影响 的 数据 . 在 回归 分 析 中 的 一 个 
重要 假设 是 ,使 用 的 模型 对 所 有 数据 是 适当 的 . 在 应 用 中 ， 有 一 个 或 多 个 样本 其 
观测 值 似乎 与 模型 不 相符 ， 但 模型 拟 合 于 大 多 数 数据 ， 这 种 情况 并 不 罕见 ， 例 如 
例 6.11 第 三 组 数据 的 情况 . 

如 果 一 个 样本 不 遵从 某 个 模型 ， 但 其 余数 据 遵从 这 个 模型 ， 则 称 该 样本 点 为 
强 影响 点 (也 称 为 异常 值 点 ) 影响 分 析 的 一 个 重要 功能 是 区 分 这 样 的 样本 数据 . 

1. 帽子 矩阵 H 的 对 角 元 素 

由 式 (6.31) 得 到 ，Y = HY. 从 几何 上 讲 ，Y 是 Y EX 的 列 向 量 张 成 子 
空间 内 的 投影 5 并 且 满 足 

OY, 
JA 
因此 ， hu 的 大 小 可 以 表示 第 i 个 样本 值 对 Y; 影响 的 大 小 ， 再 考虑 Y; 的 方差 


Var(Y;) = sot, 





hii, 


因此 ， hi; 双 反 映 了 回归 值 Y; 的 波动 情况 . 
由 投影 矩阵 H 的 性 质 得 到 ， 


2 一 1 


所 以 ， Hoaglin 和 Welsch(1978) 给 出 一 种 判断 异常 值 点 的 方法 ， 如 果 当 


2(p+1 
ln es (6.39) 


则 可 认为 第 do ARERR, AARRE, Arem RAR. 
由 于 帽子 矩阵 OEOBEE)H. 的 对 角 线 上 的 元 素 hu (i = 1,2,.…,n) 是 很 重 
要 的 统计 信息 量 ， 因 此 R 软件 也 给 出 计算 函数 hatvalues() 和 hat OO, 其 使 用 
格式 为 
5 由 于 HT = H, H? = H, 所 以 称 H 为 投影 矩阵 
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hatvalues (model,infl-1m.influence(model,do.coef-FALSE),...) 
hat(x,intercept-TRUE) 


其 中 model 是 回归 模型 ， x ERER X. 
2. DFFITS 准则 
Belsley, Kuh 和 Welsch (1980) 给 出 另 一 种 准则 ， 计 算 统计 量 
hi —— & 
1— hs ovVi—h 
KB o 的 估计 量 用 ôa 来 代 蔡 ， 对 于 第 ;个 样本 ， 如 果 有 


1 
Di(o)| > 2/ 一 一， (6.41) 
TU 


Di(o) 一 





(6.40) 


则 认为 第 i 个 样本 的 影响 比较 大 ， 应 引起 注意 . 
R 软件 给 出 了 DEFITS 准则 的 计算 函数 dffits(), 其 使 用 格式 为 
dffits(model, infl = , res = ) 
其 中 model 是 回归 模型 . 
例 6.16 用 DFFITS 准则 判断 例 6.2 中 的 异常 值 样本 点 . 
f£. 在 计算 出 回归 模型 后 ， 利 用 dffits() 函数 作 判 斯 . 
> p<-1; n«-nrow(forbes); d«-dffits(1m.sol) 
> cf«-1:n; cf[d»2*sqrt ((p*1) /n)] 
[1] 12 


因此 ， 第 12 号 样本 点 可 能 是 异常 值 点 . 
3. Cook 统计 量 
Cook 在 1977 年 提出 了 Cook 统计 量 ， Cook 统计 量 定义 为 


(8 — Bay)" XT X (8 — Ba) 
(p+ 1)6? 


其 中 fo 为 删除 第 i 个 样本 数据 后 的 估计 值 ， 由 余下 的 n — 1 个 样本 数据 求 得 的 
回归 系数 . 经 过 推导 ， Cook 统计 量 可 以 改写 为 


1 ha 
D; = — z ?2, del9 ss, 6.43 
rt 1 ? n ( ) 


D; = "UU (6.42) 
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其 中 7; 是 标准 化 残 差 . 
R 软件 给 出 了 计算 Cook 统计 量 的 计算 函数 cooks.distanceO, 其 使 用 格 
式 为 
cooks.distance(model,infl-lm.influence(model,do.coef-FALSE), 
res-weighted.residuals (model), 
sd-sqrt (deviance (model) /df.residual(model)), 
hat-infl$hat, ...) 
其 中 model 是 回归 模型 . 
直观 上 讲 ，Cook 统计 量 D; 越 大 的 点 , 越 可 能 是 异常 值 点 , 但 要 给 Cook 统 
计量 一 个 用 以 判定 蜡 常 值 点 的 临界 值 是 很 困难 的 , 在 应 用 上 要 视 具体 问题 的 实际 
情况 而 定 ， 


4. COVRATIO 准则 
利用 全 部 样本 回归 系数 佑 计 值 的 协 方差 阵 和 去 掉 第 ， 个 样本 回归 系数 佑 计 
值 的 协 方差 阵 分 别 为 
Var(ĝ) = a? (RK: ， Var(ĝa) = c? (Xt : 


其 中 Xo 是 X ARE i 行 得 到 的 矩阵 .分别 用 6 和 io 蔡 代 上 式 中 的 c. 为 了 
比较 其 对 应 的 回归 系数 的 精度 ， 考 虑 其 协 方差 的 比 
det (a SO Xo") (02) 1 





(6.44) 
如 果 有 一 个 样本 所 对 应 的 COVRATIO 值 离开 1 越 远 ， 则 越 认为 那个 样本 影响 
越 大 . 
R 软件 给 出 了 计算 COVRATIO 值 的 计算 函数 covratioO, 其 使 用 格式 为 


covratio(model, infl = lm.influence(model, do.coef = FALSE), 


res = weighted.residuals(model)) 
其 中 model 是 回归 模型 . 


5. 小 结 
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上 面 介绍 了 四 种 分 析 强 影响 点 (异常 值 点 ) 的 方法 ， 每 种 方法 找到 的 点 是 否 
是 强 影响 点 还 需要 根据 具体 情况 进行 分 析 . 这 里 为 了 方便 计算 , 将 各 种 方法 编写 
成 一 个 函数 . 

编写 回归 诊断 函数 一 Reg_Diag(). 在 给 定 回 归 模 型 后 ， 计 算 回 归 模 型 的 普 
通 残 差 、 标 准 化 (内 学 生化 ) 残 差 、 外 学 生化 残 差 、 帽 子 官 阵 对 角 线 上 的 元 素 、 
DFFITS 统计 量 、Cook 距离 和 COVRATIO 统计 量 ， 并 根据 各 种 指标 的 特征 ， 
对 可 能 是 强 影响 点 的 样本 给 予 标 记 ， 便 于 对 这 些 点 进行 分 析 研究 . 

下 面 是 相应 的 及 程序 (程序 名 : Reg Diag.R) 
Reg Diag«-function(fm)i 


n«-nrow(fm$model); df«-fm$df.residual 





p«-n-df-1; s«-rep(" ", n); 
res«-residuals(fm); si<-s; si[abs(res)--max(abs(res))]«-"x" 
sta«-rstandard(fm); s2«-s; s2[abs(sta)»2]«-"x" 
stu«-rstudent(fm); s3«-s; s3[abs(sta)»2]«-"x" 
h«-hatvalues(fm); s4«-s; s4[h»2*(p*1)/n]«-"*" 
d«-dffits(fm); sb«-s; sb[abs(d)»2*sqrt ((p*1)/n)] «-"x" 
c«-cooks.distance(fm); s6«-s; s6[c--max(c)]«-"x" 
co«-covratio(fm); abs co«-abs(co-1) 
sT«-s; sT7 [abs co--max(abs.co)]«-"x" 
data.frame(residual-res, s1, standard-sta, s2, 
student-stu, s3, hat matrix-h, s4, 
DFFITS-2d, s5b,cooks distance-c, s6, 
COVRATIO-co, s7) 


在 程序 中 ， 对 最 大 残 差 绝对 值 的 样本 做 标记 ; 对 标准 化 残 差 和 外 学 生化 残 差 
绝对 值 大 于 2 的 样本 作 标 记 ; 对 于 hu; 2(p4-1)/n 的 样本 作 标 记 ; 对 |DFFITS|; > 
2 /(p + 1)/n 的 样本 作 标 记 ; 对 最 大 的 Cooks 距离 的 样本 作 标记 ; 对 距 1 最 远 的 
COVRATIO 统计 量 的 样本 作 标记 . 

例 6.17 智力 测试 数据 

表 6.9 是 教育 学 家 测试 的 21 个 儿童 的 记录 ， 其 中 X 是 儿童 的 年 龄 (以 月 为 

3X4), Y 表示 某 种 智力 指标 ， 通 过 这 些 数据 ， 我 们 要 建立 智力 随 年 龄 变化 的 关 
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K 6.9: 儿童 智力 测试 数据 
X Y 
11 102 
10 100 
12 105 
42 57 
17 121 
11 86 
10 100 
解 : 输入 数据 (数据 框 ), 调用 函数 mO 进行 求解 GEFA: exam0617.R). 
intellect«-data.frame( 
x=c(15, 26, 10, 9, 15, 20. 18, 11, 20, 7, 
9, 10, 11, 11, 10, 12, 42, 17, 10), 
y=c(95, 71, 83, 91, 102, 87, 93, 104, 94, 113, 
96, 83, 84, 102, 100, 105, 57, 86, 100) 

) 

lm.sol«-1m(y^x, data-intellect) 

summary (lm.sol) 

其 计算 结果 如 下 
Call: 


lm(formula = y 


^ x, data = intellect) 


Residuals: 
Min 1Q Median 3Q Max 
-15.604 -8.731 1.396 4.523 30.285 


Coefficients: 
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Estimate Std. Error t value Pr(>|t|) 
(Intercept) 109.8738 5.0678 21.681 T.31e-15 *** 
x -1.1270 0.3102 -3.633 0.00177 ** 


Signif. codes: 0 ’***’ 0.001 ^x? 0.01 °»? 0.05 ^. 0.1 ^^ 1 


Residual standard error: 11.02 on 19 degrees of freedom 
Multiple R-Squared: 0.41, Adjusted R-squared: 0.3789 
13.2 on 1 and 19 DF, p-value: 0.001769 


模型 通过 T 检验 和 下 检验， 因此， 回归 方程 为 


F-statistic: 





^ 


Y = 109.8738 — 1.1270 X. 


下 面 作 回 归 诊 断 ， 调用 回归 诊断 函数 Reg DiagO 


> source("Reg Diag.R"); Reg Diag(lm.sol) 


residual sí 


standard s2 


Student s3 hat matrix s4 


1 2.0309931 0.18883222 0.18396849 0.04792248 
2  -9.5721288 -0.94440639 -0.94158335 0.15451323 
3 -15.6039514 -1 . 46226437 -1.51081192 0.06281578 
4  -8.7309404 -0.82158155 -0.81426336 0.07054521 
5 9.0309931 0.83965939 0.83286292 0.04792248 
6 | -0.3340623 -0.03147039 -0.03063183 0.07261896 
T 3.4119599 0.31891861 0.31124676 0.05798959 
8 2.5230375 0.23566531 0.22971575 0.05666993 
9 3.1420707 0.29716139 0.28991014 0.07985823 
10  6.6659377 0.62796572 0.61766026 0.07261896 
11 11.0150818 1.04797524 1.05084716 0.09075485 
12 -3.7309404 -0.35108151 -0.34283148 0.07054521 
13 -15.6039514 -1.46226437 -1.51081192 0.06281578 
14 -13.4769625 -1.25882099 -1.27977575 0.05666993 
15  4.5230375 0.42247610 0.41315320 0.05666993 
16  1.3960486 0.13082533 0.12739342 0.06281578 
17 | 8.6500264 0.80601240 0.79828114 0.05210768 


18 
19 
20 
21 


o 0 - Oo OC! A U N Be 


N N e re e he re he Be kbe re e 
e O OO O N OUO 5 W NM Í^ O 


达到 最 大 . 因此 ， 这 些 结果 可 以 分 析出 ， 第 19 号 样本 点 对 响应 变 


-5.5403062 
30.2849710 
-11.4769625 
1.3960486 


* 
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-0.85153932 
2.82336807 
-1.07201020 
0.13082533 


* 


-0.84511086 
3.60697972 
-1.07648108 
0.12739342 


0.65160998 


* 0.05305030 


0.05666993 
0.06281578 


DFFITS s5 cooks distance s6  COVRATIO s7 


. 041274036 
.402520687 
.391140045 
.224328534 
.186855984 
.008571736 
.077223953 
.056303487 
.085407473 
.172840518 
.331996854 
.094449643 
.391140045 
.313673908 


0.101264129 
0.032981383 
0.187166128 


=Q; 
0. 


. 155778731 
.853737107 
263846244 
032981383 


8. 
.149796e-02 
.165814e-02 
.561596e-02 
.774366e-02 
.877627e-05 
.130575e-03 
.668209e-03 
.831949e-03 
.543952e-02 
.481014e-02 
.677623e-03 
.165814e-02 
.759781e-02 
.361216e-03 
.[35845e-04 
.785650e-02 
.781120e-01 
.232883e-01 
.451889e-02 
.[35845e-04 


o 0 N Ore O10) d NN 50r Q rc UU PP NM M OO 


974064e-04 


=. e 0Nn-Gnn-en-50onunuinxbiíxri£rDmÓpuunpempemnlsosnusi ou 


.1658918 
.1969990 
. 9363474 
.1151027 
.0850411 
. 2013200 
.1701576 
.1742373 
.1996682 
.1520913 
.0878396 
.1832616 
. 9363474 
.9923313 
. 1590453 
. 1867369 
. 0964388 
. 9586827 
. 3964316 
.0425728 
.1867369 


* 


* 
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从 上 述 结果 来 看 ， 第 19 号 样本 点 残 差 达到 最 大 ， 且 标准 化 残 差 和 外 学 生化 
残 差 的 绝对 值 超过 2, DFFITS 统计 量 超过 规定 指标 ;第 18 号 样本 点 的 hiss, 
DFFITS 统计 量 和 COVRATIO 统计 量 超过 规定 指标 , 并 且 对 应 的 Cook 统计 量 


第 18 号 样本 点 对 自 变 量 的 影响 较 大 . 





EA, RU, 


THO 


HEK, 
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为 了 能 够 说 明 问题 ， 我 们 从 残 差 图 和 回归 散 点 来 作 进一步 的 说 明 . 为 了 便于 
分 析 ， 将 四 幅 画 在 一 张 图 上 画 出 图 形 的 R 命令 如 下 ， 得 到 的 图 形 如 图 6.11 所 
m. 
Im(formula =y ~ x, data = intellect) 
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图 6.11: 智力 测试 数据 的 残 差 图 和 回归 图 


opar <- par(mfrow = c(2, 2), oma = c(0, O, 1.1, 0), 
mar = c(4.1, 4.1, 2.1, 1.1)) 

plot(1m.sol, 1); plot(1m.sol, 3); plot(1m.sol, 4) 

attach(intellect) 

plot(x, y); X«-x[18:19]; Y«-y[18:19] 
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text(X, Y, labels-18:19, adj-1.2); abline(lm.sol) 
par (opar) 

在 上 述 程序 中 , 使 用 了 parO 函数 ， 该 函数 图 形 参数 设置 函数 ， 其 具体 的 使 
用 方法 请 见 在 线 帮助 . 

图 6.11 的 第 一 张 图 是 残 差 散 点 图 ， 从 图 形 看 出 ， 第 19 号 样本 点 明显 远离 其 
他 的 样本 点 . 图 6.11 的 第 二 张 图 是 标准 化 残 差 绝对 值 的 开 方 的 残 差 图 ,第 19 号 
样本 点 标准 化 残 差 的 开 方 大 于 1.5, 说 明 第 19 号 样本 点 在 9576 的 范围 以 外 .图 
6.11 的 第 三 张 图 表示 的 是 Cook 距离 ， 这 里 是 第 18 号 样本 点 的 值 最 大 ， 因 此 ， 
第 18 号 样本 点 可 能 是 强 影响 点 (异常 值 点 ). 为 了 显示 分 析 的 结果 ， 图 6.11 的 第 
四 张 图 给 出 了 回归 直线 和 样本 点 的 散 点 图 ， 第 18 号 样本 点 明显 偏 右 , 第 19 号 
样本 点 明显 偏 上 . 

对 于 多 元 回归 模型 ， 虽然 我 们 无 法 画 出 回归 方程 与 数据 的 的 图 形 , 但 通过 回 
HEW, 我 们 还 是 能 够 分 析出 数据 的 问题 所 在 , 例如， 对 于 智力 测试 数据 ,第 18 
号 样本 的 年 龄 是 否 有 问题 ， 而 第 19 号 样本 的 测试 结果 是 否 有 问题 ， 这 些 需 要 作 
进一步 的 研究 . 

在 R 软件 中 ， 函 数 influence.measures() 可 以 作 回归 诊断 的 总 括 ， 它 的 
使 用 格式 为 


influence.measures (model) 


其 中 model 是 由 lm 或 glm 构成 的 对 象 . 其 返回 值 是 一 个 列表 ， 列 表 中 包括 DF- 
FITS 统计 量 ， COVRATIO 统计 量 ， Cooks 距离 等 . 


























6.5.5 ”多 重 共 线 性 


当 自 变量 彼此 相关 时 ,回归 模型 可 能 非常 令 人 糊涂 . 佑 计 的 效应 会 由 于 模型 
中 的 其 他 上 自 变量 而 改变 数值 ， 甚 至 是 符号 . 故 在 分 析 时 ， 了 人 解 自 变 量 间 的 关系 的 
影响 是 很 重要 的 . 这 一 复杂 问题 常 称 为 共 线 性 或 多 重 共 线 性 . 


1. 什么 是 多 重 共 线 性 
如 果 存 在 某 些 常数 co, cl 和 co, 使 得 线性 等 式 


c1X1 十 C2 X9 = Co (6.45) 


对 于 数据 中 所 有 数据 中 的 样本 都 成 立 , 则 两 个 自 变 量 X 和 Xo 为 精确 共 线 性 的 . 
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在 实际 中 ， 精 确 共 线 性 是 偶然 发 生 的 ， 因 此 ， 如 果 等 式 (6.45) 近似 地 对 测量 
数据 成 立 ， 则 有 近似 共 线 性 . 一 个 常用 但 不 是 完全 合适 的 Xi 与 X. 间 的 共 线 性 
程度 的 度量 ， 是 它们 样本 相关 系数 的 平方 ro 精确 共 线 性 对 应 于 ro = 1; JEH 
线性 对 应 于 ri = 0. M rh 越 接 近 于 1, 近似 共 线 性 越 强 . 通常 ， 我 们 去 掉 形 容 
W] P. ris 较 大 时 ， 我 们 说 Xi 和 Xo 是 共 线 性 的 . 

对 于 p(> 2) 个 自 变 量 ， 如 果 存 在 常数 co, c1,*…, co, 使 得 





GXi | C2 X9 Feed cpXp = Co (6.46) 

近似 成 立 ， 则 表示 这 p 个 变量 存在 多 重 共 线 性 . 

2. 多 重 共 线性 的 发 现 

将 rateo To 是 和 目 变量 Xi, Xo, Xp 经 过 中 心 化 和 标准 化 得 到 的 向 
E î, W X = (za), 20), Li) B A 2M XT X 的 一 个 特征 值 ，y 为 对 应 的 特征 
向 量 ， 其 长 度 为 1 B oo — 1. Æ Ax 0, Jl 

X7Xo= Mp £0. 

用 vt 左 乘 上 式 ， 得 到 


QT XT Xo = App =À & 0, 


所 以 有 


即 
Piza) + Pzt) +: + Pptp) 2 0, (6.47) 
HP y = (ug Pp). 3X (6.47) 表明 , 向 量 £a), Lo s x) 之 间 有 近似 的 
线性 关系 ,也 是 说 ， 对 于 自 变 量 Xi, X2, o, Xp, 存在 Co, c1,…, Cp, 使 得 式 (6.46) 
近似 成 立 ， 即 自 变 量 之 间 存 在 多 重 共 线性 . 
度量 多 重 共 线性 严重 程度 的 一 个 重要 指标 是 方 矩 XTX 的 条 件数 ， 即 


| m Mmax( XTX) 
Au XTX)’ 











&(X" X) «X7 XI - lC X) 


“关于 数据 中 心 化 与 标准 化 的 方法 将 在 8.2.1 节 作 详细 介绍 
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其 中 Asa (X7 X); Ani (X7 X) RRITE XTX 的 最 大 、 最 小 特征 值 . 

直观 上 ， 条 件数 刻画 了 XTX 的 特征 值 差异 的 大 小 ， 从 实际 应 用 的 经 验 角 
度 ， 一 般若 & < 100, 则 认为 多 重 共 线性 的 程度 很 小 ; 若 100 x « < 1000, 则 认 
为 存在 中 等 程度 或 较 强 的 多 重 共 线 性 ; 若 K > 1000, 则 认为 存在 严重 的 多 重 共 线 

Æ R 软件 中 ， 函 数 kappa() 计算 矩阵 的 条 件数 ， 其 使 用 方法 为 

kappa(z, exact = FALSE, ...) 
其 中 z EERE, exact 是 逻辑 变量 ， 当 exact-TRUE 时 ， 精 确 计算 条 件数 ;否则 
近似 计算 条 件数 . 
例 6.18 考虑 一 个 有 六 个 回归 自 变量 的 线性 回归 问题 , 原始 数据 列 在 表 6.10 v. 
这 里 共有 12 组 数据 ， 除 第 一 组 外 ， 自 变量 X, Xo Xo 的 其 余 11 组 数据 满 
表 6.10: 原始 数据 





序号 Y Xi X» Xa X4 Xs Xs 
1 | 10.000 8000 1.000 1.000 1.000 | 0.541  —0.099 
2 9.737 8.000 1.000 1.000 0.000 0.130 0.070 
3 | 15.087 8000 1.000 1.000 0.000 | 2416 0.115 
4 8.422 0.000 0.000 9.000 1.000 —2.397 0.252 
5 8.625 0.000 0.000 9.000 1.000 —0.046 0.017 
6 | 16.289 0.000 0.000 9.000 1.000 0.365 1.504 
7 5.958 2.000 7.000 0.000 1.000 1.996 — —0.865 
8 9.313 2.000 7.000 0.000 1.000 | 0.228  —0.055 
9 | 12.960 2.000 7.000 0.000 1.000 1.380 0.502 
10 5.541 0.000 0.000 0.000 10.000  —0.798  —0.399 
11 8.756 0.000 0.000 0.000 10.000 0.257 0.101 
12 | 10.937 0.000 0.000 0.000 10.000 0.440 0.432 
足 线性 关系 


bap, E E E 
试用 求 矩 阵 条 件数 的 方法 ， 分 析出 自 变 量 间 存 在 多 重 共 线性 . 


360 第 六 章 回归 分 析 


解 : 用 数据 框 的 方法 输入 数据 ， 由 上 自 变量 Xi Xa, Xo 中 心 化 和 标准 化 得 
到 的 矩阵 XTX 本 质 上 就 由 这 些 自 变量 生成 的 相关 矩阵， 再 用 kappaO 函数 求 
出 矩阵 XT X 的 条 件数 ， 用 eigen() 函数 求 出 怎 阵 XTX 的 最 小 特征 值 和 相应 
的 特征 向 量 ， 求解 问题 的 R 程序 如 下 (程序 名 exam0618.R). 
collinear«-data.frame( 
Y-2c(10.006, 9.737, 15.087, 8.422, 8.625, 16.289, 
5.958, 9.313, 12.960, 5.541, 8.756, 10:937); 
Xi-rep(c(B, 0, 2, 0), c(3, 3, 3, 3)), 
X2=rep(c(1, 0, 7, 0), c(3, 3, 3, 3)), 
X3=rep(c(1, 9, 0), c(3, 3, 6)), 
X4=rep(c(1, 0, 1, 10), c(1, 2, 6, 3)), 
x5=c(0.541, 0.130, 2.116, -2.397, -0.046, 0.365, 
1.996, 0.228, 1.38, -0.798, 0.257, 0.440), 
X6=c(-0.099, 0.070, 0.115, 0.252, 0.017, 1.504, 
-0.865, -0.055, 0.502, -0.399, 0.101, 0.432) 
) 
XX«-cor(collinear[2:7]) 
kappa (XX ,exact=TRUE) 


得 到 条 件数 是 K = 2195.908 > 1000, 认为 有 严重 的 多 重 共 线性 . 

进一步 , 找 出 哪些 变量 是 多 重 共 线 性 的 . 计算 矩阵 的 特征 值 和 相应 的 特征 向 
量 

> eigen(XX) 
得 到 

Amin = 0.001106, y = (0.4476, 0.4211, 0.5417, 0.5734, 0.006052, 0.002167)". 
即 
0.4476z0) 十 “0.4211zo) + 0.5417z(3) + 0.573424) 

+ 0.006052z(5, + 0.002167z(6) = 0. 
由 于 (5, Ye) 前 的 系数 近似 为 0, 因此 ， 有 


0.4476z0) + 0.4211z02) + 0.5417z(sy + 0.5734z & 0, (6.48) 
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所 以 存在 着 Co, C1, C2, C3, C4 使 得 


C1X1 | C2 X9 | C3X3 | C4X14 X CQ. 





这 说 明 变 量 Xi, Xo, Xs, X4 存在 着 多 重 共 线性 ， 与 题目 中 给 的 变量 是 相同 的 . 
注意 ;kappa() 函数 也 可 以 求 线性 模型 的 条 件数 ， 但 实际 上 是 计算 由 上 自 变 
量 Xi, Xa, Xp Y 构成 矩阵 的 条 件数 ， 即 


kappa(1m.model) = &(|[X; X»... X,Y]). 


6.6 ”广义 线性 回归 模型 


广义 线性 模型 (GLM) 是 常见 正 态 线性 模型 的 直接 推广 ， 它 可 以 适用 于 连续 
数据 和 离散 数据 ， 特 别 是 后 者 ， 如 属性 数据 、 计 数 数据 这 在 应 用 上 ， 尤 其 是 生 
物 、 医 学 、 经 济 和 社会 数据 的 统计 分 析 上 ， 有 着 重要 意义 . 

广义 线性 模型 首先 由 Nelder 和 Wedderburn (1972) 提出 . 这 些 模型 要 求 响 
应 变量 只 能 通过 线性 形式 依赖 于 处 变量 ， 从 而 保持 了 线性 自 变量 的 思想 . 它们 对 
线性 模型 进行 了 两 个 方面 的 推广 : 通过 设 定 一 个 连接 函数 ,将 响应 变量 的 期 望 与 
线性 自 变 量 相 联 系 ,以 及 对 误差 的 分 布 给 出 一 个 误差 函数 . 这 些 推广 允许 许多 线 
性 模型 的 方法 能 被 用 于 一 般 的 问题 . 在 线性 回归 中 ,我 们 的 目标 是 将 响应 变量 v; 
作为 p 个 自 变 量 xis za Epi i 二 1,2,…,n 的 函数 建立 模型 . 

对 于 广义 线性 模型 应 有 以 下 三 个 概念 : 第 一 是 线性 自 变 量 ， 它 表明 第 i 个 
响应 变量 的 期 望 值 Ely) 只 是 能 过 线性 自 变量 867x; 而 依赖 于 vs 其 中 如 通常 一 
TÉ, O8 是 未 知 参数 的 (p 十 1) x 1 癌 量 ， 可 能 包含 截 距 . 第 二 是 连接 函数 ， 它 说 
明 线 性 上 自 变量 和 Ely) 的 关系 ， 给 出 了 线性 模型 的 推广 ， 第 三 是 误差 函数 ， 它 说 
明 广 义 线性 模型 的 最 后 一 部 分 随机 成 份 . 我 们 保留 样本 为 相互 独立 的 假设 , 但 去 
掉 可 加 和 正 态 误差 的 假设 .可 以 从 指数 型 分 布 族 中 作 选 一 个 作为 误差 函数 . 

K 6.11 给 出 了 广义 线性 模型 中 常见 的 连接 函数 和 误差 汕 数 ， 例如， 对 于 正 
态 线性 模型 ， 假 设 y; 是 正 态 分 布 ， 均 值 为 zy 6, 未 知 方差 c7. 如 果 我 们 假设 vi 
是 Poisson 随机 变量 ， 均 值 为 exp(x7 5), 我 们 得 到 Poisson 回归 模型 . 











6.6.1 与 广义 线性 模型 有 关 的 R 函数 
R 软件 提供 了 拟 合计 算 广义 线性 模型 的 函数 glm(), 其 命令 格式 如 下 
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典型 误差 函数 
恒 等 正 态 分 布 
对 数 | 278 = In E(y) Poisson 44 
Logit | zT = LogitE(y) = 二 项 分 布 
apt Gamma 分 布 


fitted.model <- glm(formula, family-family.generator, 
data-data.frame) 
其 中 formula 是 拟 合 公 式 ， 这 里 的 意义 与 线性 模型 相同 ， family 是 分 布 族 ， 
即 前 面 讲 到 的 广义 线性 模型 的 种 类 ， 如 正 态 分 布 、 Poisson 分 布 、 二 项 分 布 等 . 
data 是 数据 框 ， 这 里 的 意义 与 线性 模型 相同 . 
对 于 每 个 分 布 族 (family), 提供 了 相应 的 连接 函数 ， 如 表 6.12 所 示 . 


表 6.12: 族 与 相关 的 连接 函数 


分 布 族 (family) 连接 函数 


binomial logit, probit, cloglog 

gaussian identity 

Gamma identity, inverse, log 
inverse.gaussian 1/mu^2 

poisson identity, log, sqrt 

quasi logit, probit, cloglog, identity, 


inverse, log, 1/mu^2, sqrt 





有 了 这 些 分 布 族 和 连接 函数 ， 我 们 就 可 和 完成 相应 的 广义 线性 模型 的 似 合 问 
题 . 下 面 就 各 种 不 同 的 分 布 族 进行 分 析 . 


6.6.2 ” 正 态 分 布 族 
正 态 分 布 族 的 使 用 方法 是 


6.6 广义 线性 回归 模型 363 


fm <- glm(formula, family = gaussian(link = identity), 
data = data.frame) 
A link = identity 可 以 不 写 ， 因 为 正 态 分 布 族 的 连接 函数 缺 省 值 是 恒 等 
(identity). 事实 上 , 整个 参数 family = gaussian 也 可 以 不 写 , 因为 分 布 族 的 缺 
省 值 就 是 正 态 分 布 . 
从 表 6.11 可 以 看 出 ， 正 态 分 布 族 的 广义 线性 模型 实际 上 与 线性 模型 是 相同 

HJ. 也 就 是 说 ， 

fm <- glm(formula, family = gaussian, data = data.frame) 
与 线性 模型 

fm <- lm(formula, data = data.frame) 


有 完全 相同 的 计算 结果 ， 但 效率 确 低 得 多 . 








6.6.3 ”二 项 分 布 族 


在 二 项 分 布 族 中 ， logistic 回归 模型 是 最 重要 的 模型 ， 在 某 些 回归 问题 中 ， 
响应 变量 是 分 类 的 ， 经 常 是 或 者 成 功 ， 或 者 失败 . 对 于 这 些 问题 ， 正 态 线性 模型 
显然 是 不 合适 的 ， 因 为 正 态 误差 不 对 应 一 个 0-1 响应 . 在 这 种 情况 下 ， 可 用 一 种 
重要 的 方法 称 为 logistic HH. 

对 于 响应 变量 Y Ep 个 自 变 量 (或 称 为 解释 变量 ), 记 为 X, Xavi Xy. 在 
Dp 个 自 变量 的 作用 下 出 现成 功 的 条 件 概 率 记 为 P= P(Y = 1|Xi, Xo, Xp}, H 
么 logistic 回归 模型 为 

exp(o + PIXi+ Ba +- -+ Bp Xy) 
1 4- exp(fo + Bi X3 + Ba +-+- + Bp Xp) 


其 中 称 Bo 为 常数 项 或 截 距 ， 称 B162,…, Bp H logistic 模型 回归 系数 . 
从 公式 (6.49) 可 以 看 出 ， logistic 回归 模型 是 一 个 非 线 性 回归 模型 ， 自 变 
f X; = 1,2,…,p) 可 以 是 连续 变量 ， 也 可 以 是 分 类 变量 ， 或 哑 变 量 (dummy 
variable) 对 自 变量 X; ERRE, bot bX + bX +: -+ bp Xp Æ —oo 到 十 co 
变化 时 ， 公 式 (6.49) 的 比值 总 在 0 到 1 之 间 变 化 ， 这 正 是 概率 P 的 取 值 区 间 . 
对 公式 (6.49) 作 logit 变换 ， logistic 回归 模型 可 以 变 成 下 列 线性 形式 ; 





(6.49) 
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从 式 (6.50) 可 以 看 出 , 我 们 能 够 使 用 线性 回归 模型 对 参数 进行 估计 . 这 就 是 
logistic 回归 模型 属于 广义 线性 模型 的 原因 . 

用 R 软件 计算 logistic 回归 模型 的 公式 为 

fm <- glm(formula, family = binomial(link = logit), 
data=data.frame) 

式 中 link = logit 中 以 不 写 , HX logit 是 二 项 分 布 族 连 接 函 数 是 省 缺 状 态 . 

在 用 glm() RHE logistic 回归 模型 时 ， 对 于 公式 formula 有 两 种 输入 方 
法 ,一 种 方法 是 输入 成 功 和 失败 的 次 数 ， 男 一 种 象 线性 模型 通常 数据 的 输入 方 
法 ， 这 里 用 两 个 例子 说 明 其 数据 的 输入 和 glm() 函数 的 使 用 方法 . 
例 6.19 R. Norell 实验 

为 研究 高 压 电线 对 牲畜 的 影响 ，。 R. Norell 研究 小 的 电流 对 农场 动物 的 影 
响 . 他 在 实验 中 ， 选 择 了 7 状 ， 0 种 电击 强度 ， 01223,45 毫 安 . 每 头 牛 被 电 
击 30 下 ， 每 种 强度 5 下 ， 按 随机 的 次 序 进行 ， 然 后 重复 整个 实验 ， 每 头 牛 总 共 
被 电击 60 下 . 对 每 次 电击 ， 响 应 变量 一 嘴巴 运动 ， 或 者 出 现 ， 或 者 未 出 现 . de 
6.13 中 的 数据 给 出 每 种 电击 强度 70 次 试验 中 响应 的 总 次 数 . 试 分 析 电 击 对 牛 


表 6.13: 7 头 牛 对 6 种 不 同 强度 的 非常 小 的 电击 的 响应 


电流 (X) 试验 次 数 响应 次 数 响应 的 比例 
0 


0.000 

0.129 

0.300 

0.671 

0.857 

0.900 
的 影响 


解 : 用 数据 框 形式 输入 数据 ， 再 构造 矩阵 ， 一 列 是 成 功 (响应 ) 的 次 数 ， 男 
一 列 是 失败 (不 响应 ) 的 次 数 ， 然 后 再 作 logistice 回归 . 其 程序 如 下 (程序 名 : 
exam0619.R) 





a A C2 N 


norell<-data.frame( 
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x-0:5, n=rep(70,6), success=c(0,9,21,47,60,63) 
) 


norell$Ymat«-cbind(norell$success, norell$n-norell$success) 


glm.sol«-glm(Ymat^x, family-binomial, data-norell) 


summary (glm.sol) 


其 计算 结果 为 
Call: 


glm(formula = Ymat ^ x, family = binomial, data = norell) 


Deviance Residuals: 
1 2 3 4 5 6 
-2.2507 0.3892 -0.1466 1.1080 0.3234 -1.6679 


Coefficients: 


Estimate Std. Error z value Pr(>|z|) 


(Intercept)  -3.3010 0.3238 -10.20  «2e-16 *** 
x 1.2459 0.1119 11.13  «x2e-16 *** 
Signif. codes: 0 ’***’ 0.001 "x? 0.01 ^x)" 0.05 ^. 0.1"? 


(Dispersion parameter for binomial family taken to be 1) 


Null deviance: 250.4866 on 5 degrees of freedom 
Residual deviance: 9.3526 on 4 degrees of freedom 


AIC: 34.093 


Number of Fisher Scoring iterations: 4 


即 6o = —3.3010, 8, = 1.2459. 并 且 回 归 方程 通过 了 检验 ， 因 此 ， 





|. exp(—3.3010 + 1.2459X) 
1 十 exp( 一 3.3010 + 1.2459 X)' 


其 中 六 是 电流 强度 GR SEO). 


2 


1 


365 


回归 模型 为 
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与 线性 回归 模型 相同 ， 在 得 到 回归 模型 后 ， 可 以 作 预 测 ， 例 如 ， 当 电流 强度 
为 3.5 坚 安 时 ， 有 响应 的 牛 的 概率 为 多 少 ? 
> pre«-predict(glm.sol, data.frame(x-3.5)) 
> p«-exp(pre)/(1*exp(pre)); p 
[1] 0.742642 
即 74.2696. 
可 以 作 控 制 ， 如 有 50% 的 牛 有 响应 ， 其 电流 强度 为 多 少 ? S P = 0.5 H, 
In -与 = 0, FFU, X= — o/61. 
> X<- - glm.sol$coefficients[[1]]/glm.sol$coefficients[[2]] 
> X 
2.649439 


即 2.65 毫 安 的 电流 强度 ， 可 以 使 5096 的 牛 有 响应 . 
最 后 画 出 响应 的 比例 与 logistic 回归 曲线 画 。 R 软件 的 绘图 命令 如 下 ， 得 到 
的 图 形 由 图 6.12 所 示 . 














o 
o | 
eo 
O 
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> 
ee 
9 
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eo 
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norell$x 


图 6.12: 响应 比例 关于 强度 的 拟 全 logistic 回归 曲线 


d«-seq(0, 5, len-100) 
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pre«-predict(glm.sol, data.frame(x 


p«-exp (pre) / (1*exp(pre)) 


norell$y«-norell$success/norell$n 


= d)) 


plot(norell$x, norell$y); lines(d, p) 


在 程序 中 ， 


d 是 给 出 曲线 横 坐 标的 点 ， 


pre 是 计算 预测 值 ， 


率 . 用 plot 函数 和 lines 给 出 散 点 图 和 对 应 的 预测 曲线 . 
例 6.20 50 位 急性 淋巴 细胞 性 白血病 病人 ， 在 入 院 治疗 时 取得 了 外 辕 血 中 的 细 
胞 数 X (AS /mm); 淋巴 结 浸润 等 级 XS (分 为 0 1, 2, 3 级 ); 出院 后 有 无 巩 国 
“0” 表 示 无 巩 国治 疗 ) 通过 随访 取得 病人 的 生存 
时 间 ， 并 以 变量 Y —O 表示 生存 时 间 在 1 年 以 内 ，Y = 1 表示 生存 时 间 在 1 年 
或 1 年 以 上 .关于 Xi Xo, Xs 和 YY 的 观测 数据 ， 如 表 6.14 所 示 . 试用 Logistic 
回归 模型 分 析 病人 生存 时 间 长 短 的 概率 与 X1, X Xs 的 关系. 


治疗 Xa( 17 表示 有 巩固 治疗 ， 


ff. 输入 数据 ， 用 glm() 函数 计算 (程序 名 : 


life«-data.frame( 


exam0620.R). 


X1-c(2.5, 173, 119, 10, 502, 4, 14.4, 2, 40, 6.6, 


21.4, 2.8, 2.5, 6, 
5b;1, 2.2, l.T, l.T; 


2,590.5, 25 2, 4.3, 
X2-rep(c(0, 2, O, 
0, 2 

c(1, 4 
1 

1 

1 

1 


> x 


> > 2 


2 
2 
2, 
1 
1 
1 


, 


~- 
~- 


1, 

X3-rep(c(0, 

c(6, 
Y=rep(c(0, 


-> 


2 > 


~- 


2 > 2 


w O N e O O 


0 
0 
2 
3 
0 
3 


> 


> 0, 


> > 2 


155 
) 


3.5, 62.2, 
12.8, 


244.8, 4, 5.1, 
，0，2，0，2， 
，0) ， 
，8， 
，4) ) ， 
，0， 
boris iss 
c(15, 10, 15, 


=. e e e N N 


glm.sol«-glm(Y^X14X24X3, family-binomial, 


summary (glm.sol) 


计算 结果 如 下 : 
Call: 


10.8, 21.6, 2, 3.4, 
1.2, 3.5, 39.7, 62.4, 2.4, 
34.7, 28.4, 0.9, 30.6, 5.8, 6.1, 2.7, 4.7, 


32, 1.4), 


0,2,0,2,0, 


0，1，0，1，0， 
和 
10) ) 


data-life) 


367 


p 是 相应 的 预测 概 


128, 35, 


2, 


1) ， 
1422; 9435 
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K 6.14: 50 位 急性 淋巴 细胞 性 白血病 病人 生存 数据 


He X! X 
1 0 0 1.2 2 
2 0 0 3.5 0 
3 0 0 39.7 0 
4 0 0 62.4 0 
5 0 0 2.4 0 
6 0 0 34.7 0 
7 1 0 28.4 2 
8 0 0 0.9 0 
9 0 0 30.6 2 
10 0 0 5.8 0 
11 1 0 6.1 0 
12 0 0 2.7 2 
13 0 0 4.7 0 
14 0 0 128.0 2 
15 1 0 35.0 0 
16 0 1 2.0 0 
17 1 1 8.5 0 
18 1 1 2.0 2 
19 1 1 2.0 0 
20 1 1 4.3 0 
21 1 1 244.8 2 
22 0 1 4.0 0 
23 1 1 5.1 0 
24 1 1 32.0 0 
25 1 1 1.4 0 





| 
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6.6 广义 线性 回归 模型 


gim(formula = Y ^ X1 + X2 
Deviance Residuals: 
Min 1Q Median 


-1.6960 -0.5842 -0.2829 


Coefficients: 


Estimate Std. 
(Intercept) -1.696538 0. 
.005683 0.409 0.682308 


X1 0.002326 0 
X2 -0.792177 0. 
X3 2.830373 0 


Signif. codes: 0 ’***’ Q. 


(Dispersion parameter for 


Null deviance: 67.301 
Residual deviance: 46.567 
AIC: 54.567 


* X3, family - binomial, data - life) 


3Q Max 
0.7436 1.9292 


Error z value Pr(>|z|) 


658635 -2.576 0.010000 xx 


487262 -1.626 0.103998 


. 793406 | 3.567 0.000361 *** 


001 ^x» 0.01 ^x) 0.05 ^. 0.1 ^^ 1 


binomial family taken to be 1) 


on 49 degrees of freedom 


on 46 degrees of freedom 


Number of Fisher Scoring iterations: 5 


即 回归 模型 为 


|. exp(—1.696538 十 0.002326X1 — 0.792177.X5 + 2.830373X3) 
— l-exp(1.696538 十 0.002326 X, — 0.792177 X» + 2.830373 X3) 
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用 上 述 回 归 模 型 作 观 测 ， 辱 一 个 病人 的 前 两 项 的 指标 观测 值 为 zl = 5, 02 = 
2, 夺 无 巩固 治疗 (zs = 0), W 1 年 以 上 的 存活 概率 
> pre<-predict(glm.sol, data.frame(X1-5,X2-2,X3-0)) 


> p«-exp(pre)/(1*exp(pre)); p 


[1] 0.03664087 


H 3.6676. 寿 进 行 了 巩固 性 治疗 (zs = 1), W 1 年 以 上 的 存活 概率 
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> pre«-predict(glm.sol, data.frame(X1-5,X2-2,X3-1)) 
> p«-exp(pre)/(1*exp(pre)); p 
[1] 0.3920057 


2 39.2076. 比 没有 巩固 治疗 提高 了 10.699 fir. 

实际 上 ， 用 上 述 回归 方程 作 预 测 还 存在 一 些 问题 ， 这 是 因为 在 得 到 logistic 
回归 模型 时 ,参数 0, 没有 通过 检验 ， 其 P- 值 为 0.6823. 可 以 类 似 于 线性 模型 ， 
用 step() 作 变 量 筛选 . 
> glm.new<-step(glm.sol) 


Start:  AIC- 54.57 
Y ~ X1 + X2 + X3 





Df Deviance AIC 
- X1 1 46.718 52.718 
«none» 46.567 54.567 
- X2 1 49.502 55.502 
- X3 1 63.475 69.475 


Step: AIC= 52.72 
Y^ X2 + X3 


Df Deviance AIC 
<none> 46.718 52.718 
- X2 1 49.690 53.690 
- X3 1 63.504 67.504 


Call: glm(formula = Y ^ X2 + X3, family = binomial, data = life) 
Coefficients: 


(Intercept) X2 X3 
-1.642 -0.707 2.784 
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Degrees of Freedom: 49 Total (i.e. Null); 47 Residual 
Null Deviance: 67.3 
Residual Deviance: 46.72 AIC: 52.72 
再 用 summary OO 函数 显示 模型 的 细节 . 
> summary (glm.new) 
Call: 
gim(formula = Y ^ X2 + X3, family = binomial, data = life) 


Deviance Residuals: 
Min 1Q Median 3Q Max 
-1.6849 -0.5950 -0.3033 0.7442 1.9073 


Coefficients: 


Estimate Std. Error z value Pr(>|z|) 


(Intercept) -1.6419 0.6381 -2.573 0.010082 * 

X2 -0.7070 0.4282 -1.651 0.098750 . 

X3 2.7844 0.7797 3.571 0.000355 *** 

Signif. codes: 0 ’***’ 0.001 ^x? 0.01 °»? 0.05 ^. 0.1? ^ 1 


(Dispersion parameter for binomial family taken to be 1) 


Null deviance: 67.301 on 49 degrees of freedom 
Residual deviance: 46.718 on 47 degrees of freedom 
AIC: 52.718 
从 计算 结果 可 以 看 出 ， 所 有 参数 通过 了 检验 (a = 0.1). 此 时 的 回归 模型 为 
- exp(—1.6419 — 0.7070.X5 + 2.1844 X3) 
-~ 1l-exp(—1.6419 — 0.7070X, + 2.7844X3)' 
再 作 预 测 分 析 
> pre«-predict(glm.new, data.frame(X2-2,X3-0)) 
> pX-exp(pre)/(1*exp(pre)); p 
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[1] 0.04496518 
> pre«-predict(glm.new, data.frame(X2-2,X3-1)) 
> p«-exp(pre)/(1*exp(pre)); p 
[1] 0.4325522 
因此 巩固 治疗 比 没 有 巩固 治疗 提高 了 9.619 fis. 
从 上 述 例子 可 以 看 出 ， 对 于 广义 线性 模型 GLM, 同样 可 以 作 变 量 筛选 ， 模 型 
修正 等 工作 . 当然 ， 我 们 同样 可 作 回 归 诊 断 . 
> source("Reg Diag.R"); Reg Diag(glm.sol) 
诊断 的 结果 (详细 结果 略 ) 还 需要 对 第 5 号 、11 号 、20 号 、43 号 、46 号 样本 
作 进 一 步 的 研究 . 
大 家 还 可 以 用 influence.measures OO 作 回 归 诊 断 ， 其 格式 如 下 : 
> influence.measures(glm.sol) 


其 诊断 的 结果 是 : 5 号 、 46 号 样本 可 能 有 问题 . 
6.6.4 ”其 他 分 布 族 


对 于 广义 线性 模型 , 除了 上 面 讲 到 的 logistic 回归 模型 外 , 还 有 其 他 的 模型 ， 
如 Poisson 模型 等 ， 这 里 就 不 详细 介绍 了 ， 只 简单 介绍 及 软件 中 ， glm() 关于 
这 些 模型 的 使 用 方法 . 

1. Poisson 分 布 族 和 拟 Poisson 分 布 族 

Poisson 分 布 族 模型 和 拟 Poisson 分 布 族 模型 的 使 用 方法 是 


fm <- glm(formula, family = poisson(link = log), 





data = data.frame) 
fm <- glm(formula, family = quasipoisson(link = log), 


data = data.frame) 


其 直观 概念 是 : 
In(E(Y)) = Bo t X3 epe Bo Xs. 
也 就 是 ， 


E(Y) = exp (bo + 9 X1 +--+ 85X;). 


Poisson 分 布 族 模型 和 拟 Poisson 分 布 族 模型 唯一 的 差别 就 是 ， Poisson 分 
布 族 模型 要 求 响应 变量 Y 是 整数 ， 而 拟 Poisson 分 布 族 模型 则 没有 这 一 要 求 . 
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看 一 个 简单 的 例子 ， 
> x <- rnorm(100) 
> y <- rpois(100, exp(1+x)) 


> glm(y ^x, family-poisson) 


Call: gilm(formula = y ^ x, family = poisson) 


Coefficients: 
(Intercept) x 
0.997 1.010 


Degrees of Freedom: 99 Total (i.e. Null); 98 Residual 
Null Deviance: 535.7 
Residual Deviance: 106.2 AIC: 366.2 
第 一 句 是 生成 100 个 标准 正 态 分 布 的 随机 数 , 并 赋值 给 变量 x; 第 二 句 是 生成 100 
个 Poisson 的 随机 数 ， 其 中 参数 和 = exp(1 +2); 第 四 句 是 作 广 义 线性 回归 模型 ， 
其 分 布 族 是 Poisson, 连接 函数 为 Link=log, 因为 它 是 缺 省 值 ， 并 不 需要 写 在 公 
AM. 

关于 Poisson 分 布 族 模型 和 拟 Poisson 分 布 族 模 型 的 连接 函数 还 有 identity, 


Sqrt. 


2. Gamma 分 布 族 
Poisson 分 布 族 模 型 的 使 用 方法 是 


fm <- glm(formula, family = gamma(link = inverse), 


data = data.frame) 


其 直观 概念 是 : 
1 
ee 
也 就 是 ， 
E(Y)- : 


fo + By Xi t 十 DT 
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例如 ， 考 虑 拟 合 非 线性 回归 


0121 


— b> 





将 它 写 成 男 一 种 形式 


Bur a. 
其 中 2 = 22/21, £2 = —1/21, 61 = 1/01 A B2 = 02/061. 假设 我 们 已 有 适当 的 数 
据 结构 ， 我 们 可 以 用 如 下 的 方法 作 非 线性 回归 
nlfit<-glm(y ~ xL + x2 — 1, 


family = quasi(link=Gamma, data = data.frame) 


3. quasi 分 布 族 
quasi 分 布 族 模型 的 使 用 方法 是 


fm <- glm(formula, 
family = quasi(link = link.fun, variance-var.val), 
data - data.frame) 
其 中 link.fun 表示 连接 函数 , 有 如 下 函数 : logit, probit, cloglog, identity, 
inverse, log, 1/mu^2, sqrt, 而 var.val 表示 方差 值 ， 有 constant, mu, mu^2, 
mu^3 等 ， 
下 面 是 quasi 分 布 族 模 型 的 简单 例子 ， 有 些 方法 的 计算 结果 与 前 面 介绍 分 布 
族 的 计算 结果 是 相同 的 . 例如 ， 
nlfit <- glm(y ~ xl + x2 - 1, 
family = quasi(link=inverse, variance=constant), 
data = data.frame) 
与 Gamma 分 布 族 中 介绍 的 例子 是 相同 的 . 
x <- rnorm(100) 
y <- rpois(100, exp(1+x)) 
glm(y ^x, family-quasi(var-"mu", link-"log")) 
与 Poisson 分 布 族 中 介绍 的 例子 是 相同 的 . 当然 ， quasi 分 布 族 模型 还 有 其 他 的 
方式 


glm(y ^x, family-quasi(var-"mu^2", link-"log")) 
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y <- rbinom(100, 1, plogis(x)) 
gim(y ^x, family-quasi(var-"mu(1-mu)", link-"logit"), 
start-c(0,1)) 
除 上 述 分 布 族 外 ， 还 有 quasibinomial 分 布 族 、inverse.gaussian 族 等 . 
这 些 分 布 族 需 要 大 家 在 使 用 中 加 深 对 它们 的 了 解 ， 这 里 就 不 一 一 介绍 了 . 


6.7 非 线性 回归 模型 
前 面 各 节 讲 到 的 模型 主要 是 线性 模型 ， 它 具有 如 下 的 形式 
Y = bo + ÓVZi + BaZa +--+ + Bx Zi +E, (6.51) 


其 中 Zi 可 以 表示 基本 变量 Xi, Xo, .…, Xp 的 任意 函数 .虽然 式 (6.51) 可 以 表 
示 变 量 之 间 很 广泛 的 关系 (如 广义 线性 模型 ), 但 在 许多 实际 情况 下 ， 这 种 形式 的 
模型 是 不 合适 的 . 例如 ， 当 我 们 获得 了 关于 响应 和 自 变量 之 间 的 有 用 信息 ， 而 这 
种 信息 提供 了 真实 模型 的 形式 或 提供 了 模型 必须 满足 某 种 方程 时 ， 套 用 式 (6.51) 
就 不 合适 了 . 一 般 地 ， 当 实际 情况 要 求 用 非 线性 模型 时 ， 就 应 该 尽 可 能 地 拟 合 这 
样 的 模型 ， 而 不 拟 合 可 能 脱离 实际 的 线性 模型 . 











下 面 列举 两 个 非 线性 模型 的 例子 : 
Y = exp(0 + 0st? +€), (6.52) 
e 0 —05t _ œ—0ıt 
poses 8. — 6; (e e ^it) +e. (6.53) 


模型 (6.52) 和 (6.53) 都 是 以 非 线性 的 形式 包含 参数 01 和 02, 在 这 种 意义 
下 ,它们 都 是 非 线 性 模型 ,但 它们 有 本 质 上 的 区 别 . 一 个 可 以 化 成 线性 模型 ， 如 
对 于 模型 (6.52) 两 边 取 对 数 ， 得 到 


nY = 0+0t +e, (6.54) 


ERARA (6.51) 的 形式 ， 即 参 于 参数 是 线性 的 . 类 似 于 模型 模 (6.52) 那样 ， 可 
以 通过 适当 的 变换 转达 化 为 线性 模型 的 非 线性 模型 称 为 内 在 线性 的 . 然而 , 要 想 
将 模型 (6.53) 转化 成 关于 参数 是 线性 形式 是 不 可 能 的 . 这 样 的 模型 称 为 内 在 非 
线性 的 .虽然 很 多 时 候 可 以 变换 这 种 模型 使 它 容易 拟 合 ， 但 无 论 如 何 变换 ， 它 仍 
然 是 非 线性 的 . 
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对 内 在 线性 模型 ， 本 节 主 要 介绍 多 项 式 回归 模型 ， 而 对 于 其 他 的 内 在 线性 模 
型 就 不 作 介绍 了 . 本 闻 的 重点 还 是 放 在 内 在 非 线性 模型 上 ,尽管 有 些 例 子 可 能 还 
是 内 在 线性 的 ， 但 我 们 还 是 用 这 些 例子 说 明 如 何 求解 内 在 非 线性 的 模型 . 








6.7.1 多项式 回归 模型 


1. 多 项 式 回归 


假定 响应 变量 是 自 变量 的 天 次 多 项 式 ， 即 














yi = Bo + fixi + Bax? s Bert + Ei t= 1,2,..,n, (6.55) 
其 中 si ~ N(0,0?)4 
Zil — Ti, Zi 2, 2m ecu 
则 多 项 式 回 归 模 型 (6.55) 就 可 化 成 上 元 线性 回归 
Yi = Po + brzi + Pazia b Dk + ei, t= 1,2,..,n, (6.56) 


Hp e; ~ N(0,0°). 

对 于 回归 模型 (6.56) 可 用 前 面 讲 过 的 线性 回归 模型 进行 计算 . 
例 6.21 某 种 合金 钢 中 的 主要 成 分 是 金属 4 5 B, 经 过 试验 和 分 析 ， 发 现 这 两 种 
金属 成 分 之 和 7 与 膨胀 系数 y 之 间 有 一 定 的 数量 关系 ， 表 6.15 记录 了 一 组 试验 
数据 ， 试 用 多 项 式 回归 来 分 析 x hy 之 间 的 关系 . 


表 6.15: 金属 之 和 与 膨胀 系数 的 关系 数据 
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fg. 完 画 出 数据 的 散 点 图 ， 如 图 6.13 所 示 . 从 图 可 见 ， y 开始 时 随 着 v 的 
增加 而 降低 ， 而 当 xz 超过 一 定 值 后 ，Y 又 随 x 的 增加 而 上 升 ， 因 而 可 以 假定 y 
5 r 之 间 是 二 次 多 项 式 回 归 模 型 ， 并 假设 各 次 试验 误差 是 独立 同 分 布 的 ， 并 服 
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图 6.13: 金属 之 和 与 膨胀 系数 的 散 点 图 与 拟 合 曲线 


MESIA IN (0, o7). 





Yi = bo | bizi | fx? He i=1,2, n. 


用 R 软件 求解 多 项 式 回归 (F: exam0621.R) 


> alloy«-data.frame( 


x=c(37.0，37.5，38.0，38.5，39.0，39.5，40.0， 
40.5, 41.0, 41.5, 42.0, 42.5, 43.0), 


y=c(3.40, 3.00, 3.00, 3.27, 2.10, 


1.83, 1.53, 


1.70, 1.80, 1.90, 2.35, 2.54, 2.90) 


) 
> lm.sol<-lm(y~1+x+I(x^2),data=alloy) 


> summary (lm. sol) 
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Call: 
lm(formula = y ^ 1 + x + I(x^2), data = alloy) 


Residuals: 
Min 1Q Median 3Q Max 
-0.33322 -0.14222 -0.07922 0.05275 0.84577 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 257.06961 4.00295 5.469 0.000273 *** 


X -12.62032 2.35377 -5.362 0.000318 +*** 
Tx^2) 0.15600 0.02942 5.303 0.000346 +*** 
Signif. codes: 0 ’***’ 0.001 "**? 0.01 "x" 0.05 ^. 0.1 ^^ 1 


Residual standard error: 0.329 on 10 degrees of freedom 
Multiple R-Squared: 0.7843, Adjusted R-squared: 0.7412 
F-statistic: 18.18 on 2 and 10 DF, p-value: 0.0004668 


因此 ， 得 到 y 关于 z 的 二 次 回归 方程 


ĝ = 257.06961 — 12.62032z + 0.156002. 


并 且 方 程 通过 T 检验 和 下 检验. 其 拟 合 曲线 见 图 6.13 所 示 . 相应 的 绘图 命令 如 
F: 

> xfit«-seq(37,43,1en-200) 

> yfit<-predict(lm.sol, data.frame(x-xfit)) 

> plot(alloy$x,alloy$y) 

> lines(xfit, yfit) 


2. 正 交 多 项 式 回归 


从 前 面 的 讨论 可 知 ， 多 项 式 回 归 本 质 上 并 不 存在 困难 , 但 它 存在 的 缺点 是 
当 多 项 式 的 次 数 k 较 大 时 ， x, r’, 2" 接近 线性 相关 ， 从 计算 角度 讲 ， 这 样 
会 给 正则 方程 的 求解 带 来 困难 ， 产 生 较 大 的 计算 误差 . 从 统计 和 角度 讲 ， 由 r, c". 
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cos x^ 构成 的 设计 矩阵 X 的 各 列 接近 相关 ， 甜 阵 XIX) 的 值 会 变 得 很 大 ， 
使 得 系数 6 的 估计 值 的 方差 会 变 得 很 大 . 因此 ， 为 区 服 这 些 缺 点 ， 应 采用 正 交 多 
项 式 回 归 . 

多 项 式 回 归 模 型 (6.55), 考虑 正 交 多 项 式 模型 


Yi = bo + Bii (xi) + Pap2a(Ti) +: + Üxex(zi) tE $12, n, (6.57) 
其 中 pli(z), p2(7X),… ,pxr(Z) 是 正 交 的 ， 即 满足 
5 pegsi, j=1,2,---,k, 
en (6.58) 


D>_ p(xi) Pazi) sp. 2 
p 


关于 正 交 多 项 式 的 计算 公式 这 里 就 不 推导 了 ， 这 里 只 给 出 R 软件 的 计算 正 
交 多 项 函数 polyO 的 使 用 方法 ， 其 使 用 格式 为 
poly(x, ... 1, coefs = NULL) 
其 中 x 是 数值 向 量 ，degree 是 正 交 多 项 式 的 阶 数 , 并 且 要 求 degree<length(x). 
该 函数 的 返回 值 是 一 害 阵 ， 窍 阵 的 各 列 是 满足 式 (6.58) WIEZE E E. 


, degree = 


对 于 例 6.21 的 数据 作 二 次 正 交 式 


> poly(alloy$x, degree 


[1,] 
[2,] 
[3,] 
[4,] 
[5,] 
[6,] 
[7,] 
[8,] 
[9,] 
[10,] 
[11,] 
[12,] 
[13,] 


1 


.447496e-01 
.706247e-01 
.964997e-01 
.223748e-01 
.482499e-01 
.412493e-02 
.645904e-17 
.412493e-02 
.482499e-01 
.223748e-01 
.964997e-01 
.706247e-01 
.447496e-01 


=-9) 
2 


.49168917 
. 24584459 
.04469902 
.11174754 
.22349508 
.29054360 
.31289311 
.29054360 
.22349508 
.11174754 
.04469902 
. 24584459 
.49168917 
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其 中 第 一 列 是 vi. 第 二 列 是 p2, HWER (6.58). 进一步 ， 它 们 还 是 单位 向 量 . 
例 6.22 用 正 交 多 项 式 回归 计算 例 6.21 中 的 数据 . 
解 ， 
> lm.pol«-1m(y^i-*poly(x,2),data-alloy) 
> summary (1m.pol) 
Call: 
lm(formula = y ^ 1 + poly(x, 2), data = alloy) 


Residuals: 
Min 1Q Median 3Q Max 
-0.33322 -0.14222 -0.07922 0.05275 0.84577 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 2.40923 0.09126 26.400 1.40e-10 *** 
poly(x, 2)1 -0.94435 0.32904 -2.870 0.016669 * 
poly(x, 2)2 1.74505 0.32904 5.303 0.000346 *** 


Signif. codes: 0 ’***’ 0.001 "**? 0.01 °»? 0.05 ^. 0.1 ^^ 1 


Residual standard error: 0.329 on 10 degrees of freedom 
Multiple R-Squared: 0.7843, Adjusted R-squared: 0.7412 
F-statistic: 18.18 on 2 and 10 DF, p-value: 0.0004668 


因此 ， 得 到 y 关于 x 的 二 次 回归 方程 : 
Q = 2.40923 — 0.94435q + 1.745059». 
相应 的 预测 计算 函数 为 
> xfit«-seq(37,43,1en-200) 
> yfit«-predict(1m.pol, data.frame(x-xfit)) 


6.7.2. (内 在 ) 非 线性 回归 模型 
1. 非 线 性 最 小 二 乘 与 极 大 似 然 模型 
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设 非 线性 回归 模型 具有 如 下 形式 
Y = f(X, X3, 7, Xp 01, 02,7, 0k) +E, (6.59) 


其 中 e ~ N(0,0°). 
设 (Tii, Tia er Yi), i= 1 2, n JÈ (Xi, X2, Xp Y) 的 n. 次 独立 观 
测 值 ， 则 多 元 线性 模型 (6.59) 可 表示 为 
Yi 一 f GS Ti2, `, Tip, 0, 05, UU 0,) 十 Eis {= 1, 2, ta, (6.60) 


其 中 se N(0,0?), 且 独 立 同 分 布 . 
为 方便 起 见 ， 将 式 (6.60) 简写 成 


y; = f(X9,0) + &, (6.61) 


其 中 Xx = (£i, iD `, Tip)”, 0 = (01, b2, 0,)7. 
为 求 参数 0 的 估计 值 ， 求 解 最 小 二 乘 问题 


TL 


min QO) - $ (vi - f(X9,6))*. (6.62) 
Eg 0 作为 参数 0 的 估计 值 . 
可 以 证 明 ， 如果。 ~ N(0,02I), 则 9 的 最 小 二 乘 估计 也 是 0 的 极 大 似 然 估 
计 ， 这 是 由 于 该 问题 的 似 然 函 数 可 写成 


L(0,o°) = Trp A (-Q(8)/20°) . 


因而 ， 如 果 c? 已 知 ， 关 于 0 极 大 似 然 估计 等 价 于 求解 问题 (6.62). 
2. 非 线性 模型 的 参数 估计 一 nls() 函数 的 使 用 


关于 参数 9 的 佑 计 值 9 的 计算 ， 实质 上 涉及 无 约束 问题 的 求解 问题 ， 此 类 
问题 这 里 就 不 作 介绍 了 ， 其 原因 有 二 . 其 一 ,求解 问题 (6.62) 属于 最 优化 方法 ， 
与 统计 问题 相差 较 远 ;其 二 ， R 软件 提供 了 非常 方便 的 求解 优化 问题 的 函数 ， 
使 我 们 可 以 方便 地 得 到 其 估计 值 . 

R 软件 中 的 nls() 函数 可 以 求解 非 线性 最 小 二 乘 问题 (6.62), 其 使 用 格式 为 
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nls(formula, data = parent.frame(), start, 

control = nls.control(O, 

algorithm - "default", trace - FALSE, subset, 

weights, na.action, model - FALSE) 
其 中 formula 是 包括 变量 和 人 参数 的 非 线性 拟 合 公式 ， data 是 可 选择 的 数据 框 . 
start 是 初始 点 ， 用 列表 (list) 形式 给 出 ， 其 他 参数 见 在 线 帮助 
例 6.23 在 化 学 工业 的 可 靠 性 研究 中 ， 对 象 是 某 种 产品 A. 在 制造 时 单位 产品 中 
必须 含有 0.50 HFAA. 已 知 产品 中 的 氛 气 随 着 时 间 增 加 而 减少 .在 产品 到 
达 用 户 之 前 的 最 初 8 周 内 ， 氮 气 含量 衰减 到 0.49. 但 由 于 随后 出 现 了 许多 无 法 
控制 的 因素 (如 库房 环境 、 处 理 设备 等 ), 因而 在 后 8 周 理论 的 计算 对 有 效 氮 气 的 
进一步 预报 是 不 可 靠 的 . 为 了 有 利于 管理 需要 决定 (1) 库存 产品 何 时 应 该 报废 ? 
(2) 何 时 应 该 更 换 存 货 ? 在 一 段 时 间 中 观测 若干 金 产 品 得 到 的 数据 如 表 6.16 所 
T. 假定 非 线性 模型 


Y = a + (0.49 — o) exp(-8(X —8)) +€ (6.63) 


能 解释 当 X 二 8 时 数据 中 出 现 的 变 差 . 试用 非 线 性 最 小 二 来 方法 分 析 . 
解 : 输入 数据 ， 用 nls() 求解 (程序 名 :”exam0623.R) 
> cl«-data.frame( 
X=c (rep(2*4:21, c(2, 4, 4, 3, 3, 2, 3, 3, 3, 3, 2, 
Sea dae 2g vw x41 


Y-c(0.49, 0.49, 0.48, 0.47, 0.48, 0.47, 0.46, 0.46, 
0.45, 0.43, 0.45, 0.43, 0.43, 0.44, 0.43, 0.43, 
0.46, 0.45, 0.42, 0.42, 0.43, 0.41, 0.41, 0.40, 
0.42, 0.40, 0.40, 0.41, 0.40, 0.41, 0.41, 0.40, 
0.40, 0.40, 0.38, 0.41, 0.40, 0.40, 0.41, 0.38, 
0.40, 0.40, 0.39, 0.39) 


) 
> nls.sol«-nls(Y^a*(0.49-a)*exp(-b*(X-8)), data-cl, 
start = list( a= 0.1, b = 0.01 )) 
> nls.sum«-summary(nls.sol); nls.sum 


Formula: Y ^ a * (0.49 - a) * exp(-b * (X - 8)) 





序 生产 后 的 时 间 


Parameters : 


表 6.16: 单位 产品 中 有 效 氧气 的 百分数 
FARA 生产 后 的 时 间 
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Estimate Std. Error t value Pr(>|t|) 
0.005045 77.333 < 2e-16 *** 


a 0.390140 
b 0.101633 


0.013360 


7.607 1.99e-09 +*** 


22 
22 
24 
24 
24 
26 
26 
26 
28 
28 
30 
30 
30 
32 
32 
34 
36 
36 
38 
38 
40 
42 


FAXAT 
0.41 
0.40 
0.42 
0.40 
0.40 
0.41 
0.40 
0.41 
0.41 
0.40 
0.40 
0.40 
0.38 
0.41 
0.40 
0.40 
0.41 
0.38 
0.40 
0.40 
0.39 
0.39 
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Signif. codes: 0 ’***’ 0.001 "*«? 0.01 "x" 0.05 ^. 0.1? ”1 工 


Residual standard error: 0.01091 on 42 degrees of freedom 


Correlation of Parameter Estimates: 
a 
b 0.8879 
因此 ， 模 型 为 


^ 


Y = 0.39 + (0.49 — 0.39) exp(—0.10(X — 8)). 


下 面 画 出 数据 的 散 点 图 和 相应 的 拟 合 曲线 ， R 软件 命令 如 下 ， 其 图 形 如 图 
6.14 所 示 . 





0.46 
| 


cl$Y 


0.42 
| 


0.40 
| 
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cl$X 


图 6.14: 氯气 数据 的 拟 合 曲线 与 观测 点 





> xfit«-seq(8,44,1en-200) 
> yfit«-predict(nls.sol, data.frame(X-xfit)) 
> plot(cl$X, c1$Y); lines(xfit,yfit) 
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下 面 讨论 对 于 非 线 性 回归 模型 其 他 参数 估计 的 计算 . 
非 线 性 回归 参数 的 推断 要 求 对 误差 项 方差 07? 作出 估计 ， 这 个 估计 值 与 线性 
回归 是 一 样 的 


M 


Il 
m 


(yi 一 $i) (v m y (289. D) (8) 
ES = A (6.64) 
n-—k n—k n-—k 
其 中 0 是 参数 9 估计 值 .对 非 线性 回归 来 说 ， 62 不 是 o? 的 无 偏 估计 量 ， 但 是 
当 样 本 量 很 大 时 ， 它 的 偏差 很 小 . 
在 了 软件 中 ， 不 必用 式 (6.64) 计算 o 的 估计 值 ô, 因为 R 已 经 提供 了 它 的 
值 (summary()$sigma), 例如 ， 对 于 例 6.23, 
> nls.sum$sigma 
[1] 0.01091273 
给 出 了 6 = 0.01091273. 
当 模型 的 误差 项 满足 ei ~ N(0, o?), 而 样本 量 n 也 充分 大 时 ， 则 0 的 样本 分 
布 近似 正 态 ， 且 


Ms 


s. 
Il 








E(0) e 6. (6.65) 


这 样 ， 当 样本 量 充分 大 时 ， 非 线性 回归 的 最 小 二 乘 估计 量 0 是 近似 正 态 分 布 的 ， 
而 且 是 无 偏 的 ， 回归 系数 近似 协 方差 矩阵 的 估计 值 是 


Var(0) = 62(DTD)-1， (6.66) 


其 中 D 是 根据 最 后 最 小 二 乘 估计 值 ! 计算 得 到 的 Jacobi 矩阵 . 与 线性 回归 的 估 
计 协 方差 矩阵 具有 完全 相同 的 形式 ， D 充当 了 X 矩阵 的 角色 . 
例如 ， 对 于 例 6.23， 


f(X,o,B) = a + (0.49 — a) exp( -9(X — 8)), 





求 偏 导数 得 到 
2L = l-exp(-8(X — 8)), (6.67) 
a = C—(0.49 — a)(X — 8) exp( —8(X — 8)). (6.68) 





F 面 是 计算 回归 系数 近似 协 方差 矩阵 的 过 程 . 
(1) 按照 公式 (6.67)-(6.68), 编写 计算 偏 导 数 函 数 
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> fn<-function(a, b, X){ 
f1 <- 1-exp(-b*(X-8)) 
f2 <- -(0.49-a) * (X-8) *exp(-b* (X-8)) 
cbind(f1,f2) 
} 
PK RTR E EERE RE. 
(2) 代入 参数 和 变量 数据 X, 计算 偏 导数 在 X 处 的 值 
> D«-fn(nls.sum$parameters[1,1], 
nls.sum$parameters[2,1], c1$X) 
得 到 的 数据 是 由 偏 导数 构成 的 矩阵 . 
(3) 按照 式 (6.66) 计算 出 Var(9) 
> theta.var«-nls.sum$sigma^2*solve(t (D) AD) 
(4) 得 到 相应 的 计算 结果 
> theta.var 
f1 f2 
f1 2.545130e-05 5.984318e-05 
f2 5.984318e-05 1.784969e-04 


有 了 回归 系数 的 协 方差 矩阵 ， 就 可 以 计算 参数 a, 9 估计 值 4, 0 ARNE 
sd(â) = sqrt(theta.var[1,1]) = 0.005044928, 
sd(ĝ) = sqrt(theta.var[2,2]) = 0.01336027 


事实 上 ,我 们 不 必 计 算 参 数 的 标准 差 ， 在 计算 非 线 性 回归 时 ， 此 参数 已 计算 
出 来 ， 它 们 放 在 nls.sum$parameters[,2] 中 ， 
> nls.sum$parameters[,2] 
a b 
0.005044928 0.013360272 


当 非 线性 回归 模型 (6.61) 的 误差 项 是 独立 正 态 分 布 时 , 如 果 样 本 量 充分 大 ， 

则 成 立 下 述 近似 结果 ; 
6-05 a TUR PM 
x5; t((n—k), j212,.-.k. (6.69) 
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其 中 sd(0;) 表示 0; 的 标准 差 . 因此 ， 对 任意 单个 的 9;, 近似 1 一 a 置信 区 间 与 
通常 是 一 样 
8; — toa(n — k)sd(ĝ;), 0; + toa(n — k)sd(0;)]. (6.70) 


下 面 给 出 计算 参数 区 间 估 计 的 程序 ， 程 序 名 : ”paramet .int.R. 


paramet.int«-function(fm, alpha=0.05){ 
paramet «- fm$parameters[,1] 
df <- nls.sum$df [2] 
left <- paramet-nls.sum$parameters[,2] 
right <- paramet*nls.sum$parameters[,2] 
rowname <- dimnames(nls.sum$parameters) [[1]] 
colname <- c("Estimate", "Left", "Right") 
matrix(c(paramet,left, right), ncol-3, 


dimnames - list(rowname, colname )) 


} 


其 中 fm 是 由 nls() 函数 得 到 的 计算 结果 .， alpha 是 显 车 性 水 平 . 函数 的 返回 
值 是 一 矩阵 ， 其 值 有 参数 的 佑 计 值 和 相应 的 区 间 佑 计 . 
用 函数 paramet.intO 计算 例 6.23 中 参数 的 区 间 佑 计 . 
> source("paramet.int.R"); paramet.int(nls.sol) 
Estimate Left Right 
a 0.3901401 0.38509514 0.3951850 
b 0.1016328 0.08827257 0.1149931 


3. 非 线性 模型 的 参数 估计 一 nlm() 函数 的 使 用 


在 R 软件 中 , 也 可 用 函数 nlm() 求解 非 线 性 最 小 二 乘 问 题 (6.62). n1mO 使 
用 格式 
nlm(f, p, hessian = FALSE, 
typsize-rep(1, length(p)), fscale-1, 
print.level = 0, ndigit-12, gradtol = 1e-6, 
stepmax - max(1000 * sqrt(sum((p/typsize)^2)), 1000), 
Steptol = 1e-6, iterlim = 100, 
check.analyticals = TRUE, ...) 


388 第 六 章 回归 分 析 


其 中 of 是 求 极 小 的 目标 函数 ， 如 果 f 的 属性 包含 梯度 (?gradient’) 或 梯度 
( gradient’) 和 Hesse 矩阵 (hessian?)， 则 在 算法 求 极 小 时 会 直接 用 到 梯度 
或 Hesse 和 矩阵， 否则 用 数值 的 方法 求 导数 . p 是 参数 ( 即 模型 (6.61) 中 的 0) 的 
初 值 . hessian 是 逻辑 变量 ， 当 hessian-TRUE 时 ， 其 结果 给 出 相应 的 Hesse 4E 
阵 ， 否 则 (FALSE 缺 省 值 ), 将 不 计算 Hesse 和 矩阵， 其余 参 数 的 意义 见 在 线 帮助 
这 个 函数 采用 Newton 型 算法 求 极 小 ， 函 数 的 返回 值 是 一 个 列表 ， 包 含 极 小 
值 ， 极 小 点 的 估计 值 ， 极 小 点 处 的 梯度 、 Hesse 和 矩阵， 以 及 求解 所 需 的 迭代 次 数 
等 . 
在 第 四 章 的 4.1.2 节 介绍 过 nlm() 函数 的 使 用 方法 , 下 面 再 进一步 介绍 nlm() 
的 使 用 方法 ， 在 程序 中 给 出 目标 函数 的 梯度 . 
例 6.24 用 函数 nlm() 作 例 6.23 的 非 线性 最 小 二 乘 估计 . 
fg. 写 出 非 线性 最 小 二 乘 问题 的 目标 函数 ,其 中 函数 包含 梯度 (gradient ) 
属性 .函数 名 :fn.R 
fn<-function(p, X, Y){ 
f <- Y-p[1]-(0.49-p[1])*exp(-p[2]*(X-8)) 
res«-sum(f^2) 
f1<- -i*exp(-p[2]*(X-8)) 
f2«- (0.49-p[1])*exp(-p[2]* (X-8)) *(X-8) 
J«-cbind(f1,f2) 
attr(res, "gradient") <- 2xt(J)^4*4f 
res 


} 
在 函数 中 ，f 是 残 差 向 量 ， res 是 残 差 平 方 和 和 . f1 是 f 对 p 求 导数 得 到 
的 向 量 ， f2 f 对 po 求 导数 得 到 的 向 量 . J 是 Jacobi XE K. 
再 用 nlm() 函数 求解 
> out«-nlm(fn, p=c(0.1, 0.01), X-cl$X, Y-cl$Y, hessian-TRUE); out 
$minimum 
[1] 0.00500168 
$estimate 
[1] 0.3901400 0.1016327 
$gradient 
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[1] 7.954390e-07 -3.261297e-07 
$hessian 
[,1] [,2] 

[1,] 44.20335 -14.799291 
[2,] -14.79929 6.248565 
$code 
[1] 1 
$iterations 
[1] 33 

在 上 述 计算 结果 中 ， minimum 是 目标 函数 在 最 优点 处 的 最 小 值 ， 也 就 是 残 
差 的 平方 和 ; estimate 是 参数 的 估计 值 ， 即 â, P; gradient 是 目标 函数 在 最 
优点 处 的 梯度 值 ， hessian 是 目标 函数 在 最 优点 处 的 Hesse WERE, CP EN 
DTD 的 近似 值 ， iterations ERI. 

由 上 述 结果 可 以 很 容易 地 计算 67, 和 â, 6 方差 阵 

> n<-length(X); k<-2 











> sigma2«-out$minimum/(n-k); sigma2 

[1] 0.0001190876 

> theta.var«-sigma2*solve(out$hessian); theta.var 
[,1] [,2] 

[1,] 1.301183e-05 3.081760e-05 

[2,] 3.081760e-05 9.204775e-05 


A 


习题 六 
6.1 为 估计 山上 积 雪 融 化 后 对 下 游 灌溉 的 影响 ， 在 山上 建立 一 个 观测 站 ， 测 量 
最 大 积 雪 深度 X 与 当年 灌溉 面积 也 , 测 得 连续 10 年 的 数据 如 表 6.17 下 所 示 . 
G) 试 画 相应 的 散 点 图 ， 判 断 了 与 X 是 否 有 线性 关系 ; 
(2) &i Y 关于 X 的 一 元 线性 回归 方程 ; 
(3) 对 方程 作 显著 性 检验 ; 
(4) 现 测 得 今年 的 数据 是 X — 7 米 ， 给 出 今年 灌溉 面积 的 预测 值 和 相应 的 
区 间 估 计 (a = 0.05). 
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表 6.17: 10 年 中 最 大 积 雪 深 度 与 当年 灌溉 面积 的 数据 


^s Yam) 
5.1 7.8 


1 3000 
2 4.5 1947 
3 s 5.6 2213 
4 8.0 3113 
5 6.4 2493 





6.2 研究 同一 地 区 土壤 所 含 可 给 态 磷 的 情况 ， 得 到 18 组 数据 如 表 6.18 所 示 . 
表 中 Xi 为 土壤 内 所 含 无 机 磷 浓 度 ， Xo 为 土壤 内 溶 于 KCO; 溶液 并 受 溴 化物 
KAAI, Xs 为 土壤 内 溶 于 KCO 溶液 但 不 溶 于 省 化 物 水 解 的 有 机 磷 . 


表 6.18: 某 地 区 土壤 所 含 可 给 态 磷 的 情况 


51 
76 
96 
TT 
93 
95 
54 
168 
99 
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(1) ÈE Y 关于 X 的 多 元 线性 回归 方程 ; 

(2) 对 方程 作 显著 性 检验 ; 

(3) 对 变量 作 逐 步 回 归 分 析 ， 
6.3 已 知 如 下 数据 ， 由 表 6.19 所 示 . 

(1) 画 出 数据 的 散 点 图 ， 求 回归 直线 y= [0 十 P17, 同时 将 回归 直线 也 画 在 
dk e ELE; 

(2) 分 析 了 检验 和 下 检 验 是 否 通 过 ， 
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表 6.19: 数据 表 


17.5 
13.4 
4.5 
30.4 
12.4 
13.4 
26.2 
7.4 


© o N Oo aA Co Nl 
Q2 Q2 Qo N N Ne e ran 


m 
Co 





(3) m X E (普通 残 差 和 标准 化 残 差 ) 与 预测 值 的 残 差 图 ， 分 析 误 差 是 否 
是 等 方差 的 ， 

(4) 修正 模型 ， 对 响应 变量 Y 作 开 方 ， 再 完成 (1)-(3) 的 工作 . 
6.4 对 牙膏 销售 数据 (数据 表 见 例 6.9) 得 到 的 线性 模型 作 回归 诊断 ， 分 析 哪 些 
样本 点 需要 作 进 一 步 的 研究 ?哪些 样本 点 需要 在 回归 计算 中 删 去 ， 如 果 有 ， 删 去 
再 作 线 性 回归 模型 的 计算 . 
6.5 诊断 水 泥 数 据 (数据 见 例 6.10) 是 否 存 在 多 重 共 线性 , 分 析 例 6.10 中 stepO 
函数 去 掉 的 变量 是 否 合理 . 

6.6 为 研究 一 些 因素 (如 用 抗生素 、 有 无 危险 因子 和 事先 是 否 有 计划 ) 对 S 
产后 是 否 有 感染 ”的 影响 ， 表 6.20 给 出 的 是 某 医 院 剖 腹 产 后 的 数据 , 试用 logistic 
表 6.20: 某 医 院 进 行 剖 腹 产 后 的 数据 
事先 有 计划 临时 决定 
有 感染 无 感染 有 感染 B 3 





有 危险 因子 
没 有 
有 危险 因子 
没 有 


392 第 六 章 回归 分 析 
回归 模型 对 这 些 数据 数据 进行 研究 ， 分 析 感 染 与 这 些 因素 的 关系 . 
6.7 表 6.21 是 40 名 肺癌 病人 的 生存 资料 ， 其 中 Xi 表示 生活 行动 能 力 评分 


表 6.21: 40 名 肺癌 病人 的 生存 资料 


一 
ÉÓoÓocccococococoo0oo0oococoooococozcocu 
z 
e 
cO Oc OO O cO c c Qo bo bo b2 l2 1223 nnnnn—u 
cO oco 00000000005 CS/ SD SS Sh EE 2 
FS 


1 
1 
1 
1 
1 
1 
1 
2 
2 
2 
2 
2 
2 
2 
3 
3 
0 
0 
0 
0 





(1 ~ 100); X 表示 病人 的 年 龄 ， Xs 表示 由 诊断 到 直入 研究 时 间 (月 ); X4 表示 
肿瘤 类 型 (“0” 是 磷 癌 ，“1” 是 小 型 细胞 癌 ，“2” 是 腺 癌 ，“3” 是 大 型 细胞 癌 放 
Xs 表示 两 种 化 疗 方法 (“1” 是 常规 ，“0” 是 试验 新 法 ); Y 表示 病人 的 生存 时 间 
(“0” 是 生存 时 间 短 ， 即 生存 时 间 小 于 200 天; “I” 表示 生存 时 间 长 ， 即 生存 时 
间 大 于 或 等 于 200 天 ). 
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(1) 建立 P(Y — 1) 4 X, ~ X; 的 logistic 回归 模型 ，X ~ Xs 对 P(Y = 1) 
的 综合 影响 是 否 显著 ?哪些 变量 是 主要 的 影响 因素 , 显著 水 平 如 何 ? 计算 各 病人 
生存 时 间 大 于 等 200 天 的 概率 估计 值 . 

(2) 用 逐步 回归 法 选取 自 变量 ， 结 果 如 何 ? 在 所 选 模型 下 ， 计 算 病 人 生存 时 
间 大 于 等 于 200 天 的 概率 估计 值 ， 并 将 计算 结果 与 (1) 中 模型 作 比较 ， 差异 如 
fp? 哪 一 个 模型 更 合理 . 
6.8 一 位 饮食 公司 的 分 析 人 员 想 调查 自助 餐馆 中 的 自动 咖啡 售 贷 机 数量 与 咖啡 
销售 量 之 间 的 关系 ， 她 选择 了 14 家 餐馆 来 进行 实验 . 这 14 家 餐馆 在 营业 额 、 
顾 容 类 型 和 地 理 位 置 方面 都 是 相近 的 ， 放 在 试验 餐馆 的 自动 售 货 机 数量 从 0( 这 
X wed RA UPS) 到 6 不 等 ， 并 且 有 是 随机 分 配 到 每 个 餐馆 的 ， 表 0.22 所 示 
的 是 关于 试验 结果 的 数据 . 


表 6.22: 自动 咖啡 售 货 机 数量 与 咖啡 销售 量 数据 





i 入 货机 数量 MENEE 
1 3 697.5 
2 4 755.3 
3 4 758.9 
4 5 787.6 
5 5 792.1 
6 6 841.4 
7 6 831.8 
(1) 作 线性 回归 模型 ; 


(2) 作 多 项 式 回归 模型 ; 

(3) 画 出 数据 的 散 点 图 和 拟 合 曲 线 . 
6.9 一 位 医院 管理 人 员 想 建立 一 个 回归 模型 ， 对 重伤 病人 出 院 后 的 长 期 恢复 情 
况 进行 预测 ， 自 变量 是 病人 住院 的 天 数 (X), 应 变量 是 病人 出 院 后 长 期 恢复 的 预 
后 指数 (YY) ， 指 数 的 数值 越 大 表示 预后 结局 越 好 .为 此 ， 研 究 了 15 个 病人 的 数 
据 ， 这 些 数 据 列 在 表 6.23 中 . 根据 经 验 表 明 ， 病 人 住院 的 天 数 (X) 和 预后 指数 
(Y ) 服从 非 线性 模型 

Y; = 0o exp(01 X;) ti i= I dee 19. 
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(1) 用 内 在 线性 模型 方法 计算 其 各 种 参 的 估计 值 ; 
(2) 用 非 线性 方法 (nls() 函数 和 nlm() 函数 ) 计算 其 各 种 参 的 估计 值 . 


表 6.23: 关于 重伤 病人 的 数据 





病 号 | 住院 天 数 (X) 预后 指数 (Y) 


Oo n CO C' A OV N e 


住院 天 数 (X) 预后 4 


34 
38 
45 
52 
53 
60 
65 
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在 实际 工作 中 ， 影 响 一 件 事 的 因素 是 很 多 的 ， 人们 总 是 希望 通过 各 种 试验 来 
观察 各 种 因素 对 试验 结果 的 影响 ， 例 如: 不 同 的 生产 厂家 ,不 同 的 原材料 ， 不 同 
的 操作 规程 ， 及 不 同 的 技术 指标 等 对 产品 的 质量 、 性 能 都 会 有 影响 ， 然 而 不 同 因 
素 的 影响 大 小 不 等 ， 方差 分 析 是 研究 一 种 或 多 种 因素 的 变化 对 试验 结果 的 观测 
值 是 否 有 显著 影响 . 从 而 找 出 较 优 的 试验 条 件 或 生产 条 件 的 一 种 常用 数理 统计 方 
ik. 

人 们 在 试验 中 所 考察 到 的 数量 指标 如 产量 、 性 能 等 称 为 观测 值 .影响 观测 值 
的 条 件 称 为 因素 . 因素 的 不 同 状 态 称 为 水 平 ， 一 个 因素 可 以 采用 多 个 水 平 . 在 一 
项 试验 中 ， 可 以 得 出 一 系列 不 同 的 观测 值 . 引起 观测 值 不 同 的 原因 是 多 方面 的 ， 
有 的 是 处 理 方式 不 同 或 条 件 不 同 引 起 的 , 称 作 因素 效应 (或 处 理 效应 、 条 件 变异 ). 
有 的 是 试验 过 程 中 偶然 性 因素 的 干扰 或 观测 误差 所 导致 的 ， 称 作 试验 误差 . 方差 
分 析 的 主要 工作 是 将 测量 数据 的 总 变异 按照 变异 原因 的 不 同 分 解 为 因素 效应 和 
试验 误差 并 对 其 作出 数量 分 析 ， 比 较 各 种 原因 在 总 变异 中 所 占 的 重要 程度 ， 作 
为 统计 推断 的 依据 ， 由 此 确定 进一步 的 工作 方向 . 
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下 面 从 一 个 实例 出 发 说 明 单 因素 方差 分 析 的 基本 思想 . 
例 7.1 利用 四 种 不 同 配方 的 材料 A1 、 A2. As. A 生产 出 来 的 元 件 ， 测 得 
其 使 用 寿命 如 表 7.1 所 示 . Ph 四 种 不 同 配方 下 元 件 的 使 用 寿命 有 无 显著 的 差 


表 7.1: 元 件 寿 命 数据 





材料 使 用 寿命 
Aj | 1600 1610 1650 1680 1700 1700 1780 
A> | 1500 1640 1400 1700 1750 
As | 1640 1550 1600 1620 1640 1600 1740 1800 
A, | 1510 1520 1530 1570 1640 1600 
x? 
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在 此 例 中 材料 的 配方 是 影响 元 件 的 使 用 寿命 的 因素 , 四 种 不 同 的 配方 表明 因 
素 处 于 四 种 状态 ， 称 为 四 种 水 平 ， 这 样 的 试验 称 为 单 因 素 四 水 平 试验 . 由 表 中 数 
据 可 知 ， 不 仅 不 同 配方 的 材料 生产 出 的 元 件 使 用 寿命 不同， 而 且 同 一 配方 下 元 件 
的 使 用 寿命 也 不 一 样 . 分 析 数 据 波动 的 原因 主要 来 自 两 方面 . 

其 一 ， 在 同样 的 配方 下 做 若干 次 寿命 试验 ,试验 条 件 大 体 相 同 ， 因 此 ， 数 据 
的 波动 是 由 于 其 它 随机 因素 的 干扰 所 引起 的 . 设想 在 同一 配方 下 元 件 的 使 用 寿命 
应 该 有 一 个 理论 上 的 均值 ， 而 实测 寿命 数据 与 均值 的 偏离 即 为 随机 误差 ， 此 误差 
服从 正 态 分 布 . 

其 二 ,在 不 同 的 配方 下 ,使 用 寿命 有 不 同 的 均值 ， 它 导致 不 同 组 的 元 件 间 寿 
命 数据 的 不 同 . 

对 于 一 般 情况 ， 设 试验 只 有 一 个 因素 4 在 变化 ， 其 它 因素 都 不 变 ， 4 有 7 
个 水 平 Ai, Aa, …, Ar, 在 水 平 4 下 进行 n; 次 独立 观测 , 得 到 试验 指标 列表 中 ， 
如 表 7.2 所 示 . 











表 7.2: 单 因素 方差 分 析 数 据 
KE 观测 值 





其 中 zz 表示 在 因素 4 的 第 i 个 水 平 下 的 第 7 次 试验 的 试验 结果 . 


7.1.1 ”数学 模型 


将 水 平 A; 下 的 试验 结果 zi 0.000, Lin 看 作 来 自 第 i 个 正 态 总 体 Xi 
N(u;, o0?) 的 样本 观测 值 ， 其 中 ui o? 均 未 知 ， 且 每 个 总 体 X; 相互 独立 ， 考 虑 线 
性 统计 模型 


Tij = Hi F ij, i= 1,2,...,7, J = 1,2,..., Ni, 
| 5 j (7.1) 


Eij ^v N (0, o°) 且 相 互 独立 ， 
其 中 ui 是 第 i 个 总 体 的 均值 ， si 是 相应 的 试验 误差 . 
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比较 因素 4 的 7 个 水 平 的 差异 归结 为 比较 这 r 个 总 体 的 均值 . 即 检验 假设 
Ho: pj = ua =- ++ = Hr, Hy: quas hr 不 全 相等 . (7.2) 
记 
1 T T 
p= mh, n=} ms euh 
"em PS 
这 里 / 表示 总 和 的 均值 ， ou 为 水 平 4 对 指标 的 效应 ， 不 难 验证 s nia; = 0. 
证 1 
模型 (7.1) 又 可 以 等 价 写成 


Zij = H + Qi + Eijs = Jj = 1,2,...,n;, 
Eij ~ N(0, c?) HA EJEM, (7.3) 


Sk 一 0. 
称 模 型 (7.3) 为 单 因素 方差 分 析 的 数学 模型 ， 它 是 一 种 线性 模型 . 
7.1.2 方差 分 析 
因此 假设 (7.2) 等 价 于 





Ho: Qı Q2 IU Qr 0, Hi: 01,02, '**, Qr TA. (7.4) 





如 果 Ho 被 拒绝 ， 则 说 明 因素 4 的 各 水 平 的 效应 之 间 有 显著 的 差异 ; 和 否则， 差异 
不 明显 . 

为 了 导出 Ho 的 检验 统计 量 . 方差 分 析 法 建立 在 平方 和 分 解 和 目 由 度 分 解 的 
基础 上 ， 考 虑 统计 量 





T Ni T Ni 


T EN 
Sp — M "(sj — zy, 33 


i-l j=1 i-l j=1 





称 Sr 为 总 离 差 平方 和 (或 称 为 总 变 差 ), 它 是 所 有 数据 zi 与 总 平均 值 T 差 的 平方 
和 ， 描 绘 了 所 有 观测 数据 的 离散 程度 . 经 计算 可 以 证 明 如 下 的 平方 和 分 解 公 式 : 


ST = Sg + 54, (7.5) 
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其 中 


T Ni 1 Ni 
— \2 zs 
Dg = > > (zi — Ti), Ti = 一 > Tij, 
Tli puer 


i-l j=1 


Sa = > Y -g)- ^n. - gy. 
i=1 j=1 i=1 
这 里 Sp 表示 了 随机 误差 的 影响 ， 这 是 因为 对 于 固定 的 i 来 讲 ， 观 测 值 ria, zio， 
t5 Yin, AERE H FE] — E S E N(ui;,c?) 的 样本 . 因此 ， 它 们 之 间 的 差异 是 由 
随机 误差 所 致 ， 而 2.0 一 Xi)? 是 这 n; 个 数据 的 变动 平方 和 ， 正 是 它们 差异 大 
= 

小 的 度量 . 将 7 组 这 样 的 变动 平方 和 相 加 ， 就 得 到 了 Se, 通常 称 Sg 为 误差 平方 
和 或 组 内 平方 和 . 

Sa 表示 在 A; 水 平 下 的 样本 均值 与 总 平均 值 之 间 的 差异 之 和 ， 它 反映 了 > 
个 总 体 均值 之 间 的 差异 ， 因 为 xu 是 第 i 个 总 体 的 样本 均值 ， 是 ui 的 估计 ， 因 此 
r 个 总 体 均 值 Hi, oss ,hr 之 间 的 差异 越 大 ， 这 些 样本 均值 Ti, 52.,.…, xu 之 间 
的 差异 也 就 越 大 .平方 和 Zl 一 元 )” 正 是 这 种 差异 大 小 的 度量 . 这 里 n 反 
映 了 第 i 个 总 体 样本 大 小 在 平方 和 S4 中 的 作用 . 称 54 为 因素 4 的 效应 平方 和 
或 组 间 平 方 和 . 

公式 (7.5) 表明 ， 总 平方 和 Sr 可 按 其 来 源 分 解 成 两 部 分 ， 一 部 分 是 误差 平 
方 和 Ss, 是 由 随机 误差 引起 的 ， 另 一 部 分 是 因素 4 的 平方 和 S4, 是 由 因素 A 的 
各 水 平 的 差异 引起 的 . 

由 模型 假设 (7.2) 经 过 统计 分 析 可 以 得 到 E(Sg) = (n —r)o?, Bl Sp/(n 一 7) 
是 o’ 的 一 个 无 偏 佑 计 ， 且 











E 
o^ X^(n — r). 


如 果 原 假设 Ho, WE E(SA)-(r-—1)e?^, 即 此 时 Sa/(r — 1) 也 是 的 无 
偏 佑 计 ， 且 


zvX(r-» 


JFH.S4 5 Sg 相互 独立 ， 因 此 当 Ho 成 并 时 ， 


Z SA/(r — 1) 
Sg/(n — r) 





F ~ F(r - 1,n —r). (7.6) 
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于 是 F (也 称 F B) 可 以 作为 Ho 的 检验 统计 量 . 对 给 定 的 显著 性 水 平 a, 用 
Fa —1,n—r)3Xm F 分布 的 上 a 分 位 点 . EP F> Fu(r— L,n- r), 则 拒绝 原 
假设 , 认为 因素 A 的 T 个 水 平 有 显著 差异 . 也 可 以 通过 计算 P- 值 的 方法 来 决定 
是 接受 还 是 拒绝 原 假设 Ho. p EX p= PUF(r 一 1,n 一 7) > 了 f}, 它 表示 的 是 服 
从 自由 度 为 (7 一 1,n 一 7) 的 下 分布 的 随机 变量 取 值 大 于 的 概率 . 显然 ， 2 值 
小 于 a 等 价 于 F > Few 一 1,n 一 7), 表示 在 显著 性 水 平 a 下 的 小 概率 事件 发 生 
了 ， 这 意味 着 应 该 拒绝 原 假设 Ho. 当 p 值 大 于 a 时 ， 则 无 法 拒绝 原 假设 ， 所 以 
应 接受 原 假设 Ho. 
通常 将 计算 结果 列 成 表 7.3 的 形式 ， 称 为 方差 分 析 表 . 


表 7.3: 单 因素 方差 分 析 表 
rye e m a » i 
因素 A 
误 差 
总 和 











7.1.3 ”方差 分 析 表 的 计算 
R 软件 中 的 aov() 函数 提供 了 方差 分 析 表 的 计算 . aov() 函数 的 使 用 方法 


是 
aov(formula, data = NULL, projections = FALSE, qr = TRUE, 
contrasts = NULL, ...) 
其 中 formula 是 方差 分 析 的 公式 . data 是 数据 杠 . 其 他 见 在 线 帮助 
另外 ， 可 用 summary() 列 出 方差 分 析 表 的 详细 信息 . 
£j 7.2 ( 续 例 7.1) 用 RR 软件 计算 例 7.1. 
解 : 用 数据 框 的 格式 输入 数据 , 调用 aov() 函数 计算 方差 分 析 , 用 summary() 
提取 方差 分 析 的 信息 (程序 名 exam0702.R) 
> lamp<-data.frame( 
X-c(1600, 1610, 1650, 1680, 1700, 1700, 1780, 1500, 1640, 
1400, 1700, 1750, 1640, 1550, 1600, 1620, 1640, 1600, 
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1740, 1800, 1510, 1520, 1530, 1570, 1640, 1600), 
A-factor(c(rep(1,7),rep(2,5), rep(3,8), rep(4,6))) 
) 

> lamp.aov«-aov(X ^ A, data-lamp) 
» summary (lamp.aov) 

Df Sum Sq Mean Sq F value Pr(>F) 
A 3 49212 16404 2.1659 0.1208 
Residuals 22 166622 7574 


上 述 数据 与 方差 分 析 表 7.3 中 的 内 容 相 对 应 ， 其 中 Df 表示 目 由 度 ， Sum Sq X 
示 平 方 和 ， Mean Sq 表示 均 方 ，F value Xs F fü, BIE E. PrF) 表示 了 
值 ，A 就 是 因素 A, Residuals 是 残 差 ， 即 误差 . 


从 上 述 计算 结果 可 以 看 出 , 如 果 直 接 用 summary (lamp.aov) 的 话 , 它 没 有 列 
出 方差 分 析 表 7.3 的 最 后 一 行 (总 和 行 ), 这 里 编 个 小 程序 (程序 名 anova.tab.R), 
作 一 点 改进 , 其 计算 方法 是 将 summary 函数 得 到 表 中 的 的 第 一 行 与 第 二 行 求 和 ， 
得 到 总 和 行 的 值 . 
anova.tab<-function(fm){ 
tab<-summary (fm) 
k<-length(tab[[1]])-2 
temp<-c(sum(tab[[1]][,1]), sum(tab[[1]][,2]), rep(NA,k)) 
tab[[1]] ["Total",]«-temp 
tab 
J 


这 个 小 程序 的 另 一 个 目的 是 学 会 如 何 利用 R 软件 的 计算 结果 来 得 到 我 们 需 
要 的 结果 .用 上 述 函 数 ， 就 可 以 得 到 完整 的 方差 分 析 表 . 


> source("anova.tab.R"); anova.tab(lamp.aov) 


Df Sum Sq Mean Sq F value Pr(>F) 


A 3 49212 16404 2.1659 0.1208 
Residuals 22 166622 7574 
Total 25 215835 


并 将 结果 填 在 方差 分 析 表 中 ， 由 表 7.4 所 示 . 
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d 7.4: 元 件 寿 命 试验 的 方差 分 析 表 


oni p i 
因素 A 49212 16404 | 2.1658 | 0.1208 
误 28 166622 7573 

总 和 215835 


MK. p f& (0.1208 > 0.05) 可 以 看 出 ， 没 有 充分 理由 说 明 Ho 不 正确 ， 也 就 是 
说 ， 接 受 Ho. 说 明 四 种 材料 生产 出 的 元 件 的 平均 寿命 无 显著 的 差异 . 

通过 plotO 函数 绘图 来 描述 各 因素 的 差异 ,其 命令 如 下 , 所 绘图 形 由 图 7.1 
所 示 . 
> plot(lamp$X^lamp$A) 
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图 7.1: 元 件 寿命 试验 的 箱 线 图 


从 图 形 上 也 可 看 出 ， 四 种 材料 生产 出 的 元 件 的 平均 寿命 是 无 显著 差异 的 . 
例 7.3 小 白鼠 在 接种 了 3 种 不 同 菌 型 的 伤寒 杆菌 后 的 存活 天 数 如 表 7.5 所 示 . 
判断 小 白鼠 被 注射 三 种 菌 型 后 的 平均 存活 天 数 有 无 显著 差异 ? 
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表 7.5: 白鼠 试验 数据 








B. 设 小 白鼠 被 注射 的 伤寒 杆菌 为 因素 ， 三 种 不 同 的 菌 型 为 三 个 水 平 ， 接 种 
后 的 存活 天 数 视 作 来 自 三 个 正 态 分 布 总 体 N (ui o’) = 1,2,3) 的 样本 观测 值 . 
问题 归结 为 检验 : 


Ho: pi = H2 = pa; Hi: paso, H3 不 全 相等 . 


R 软件 计算 过 程 与 计算 结果 (exam0703.R) 

> mouse<-data.frame( 

X=c( 2, 4, 3, 2, 4, 7, 7, 2, 2, 5, 4, 5, 6,8, 5, 10, 7, 
12, 12, 6, 6, 7, 11, 6, 6, 7, 9, 5, 5, 10, 6, 3, 10), 
A=factor(c(rep(1,11),rep(2,10), rep(3,12))) 
) 
> mouse.aov«-aov(X ^ A, data-mouse) 
> source('anova.tab.R"); anova.tab(mouse.aov) 


Df Sum Sq Mean Sq F value PrF) 


人 2 94.256 47.128 8.4837 0.001202 ** 

Residuals 30 166.653 5.555 

Total 32 260.909 

Signif. codes: 0 ’***’ 0.001 ^"**? 0.01 ^x" 0.057. 0.1? ^ 1 





p 值 远 小 于 0.01 应 拒绝 原 假设 ， 即 认为 小 白鼠 在 接种 三 种 不 同 戎 型 的 伤寒 
杆菌 后 的 存活 天 数 有 显著 的 差异 . 


7.1.4 ”均值 的 多 重 比较 


如 果 F 检验 的 结论 是 拒绝 Ho, 则 说 明 因素 A 的 7 个 水 平 效应 有 显著 的 差 
异 ,也 就 是 说 7 个 均值 之 间 有 显著 差异 . 但 是 这 并 不 意味 着 所 有 均值 间 都 存在 差 
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异 ， 这 时 我 们 还 需要 对 每 一 对 pi RI; 作 一 对 一 的 比较 ， 即 多 重 比 较 . 

多 重 比较 的 方法 很 多 ， 这 里 介绍 几 种 常用 的 方法 . 

1. SẸ t 检验 方法 

这 种 方法 本 质 上 就 是 针对 每 组 数据 进行 t 检验 ， 只 不 过 估计 方 差 时 利用 的 是 
全 体 数据 ， 因 而 自由 度 变 大 . 具体 地 说 ,要 比较 第 i 组 与 第 7 组 平均 数 ， 即 检验 

Ho : ii = p, 1 天 小 i, j —12, T. 

方法 采用 两 正 态 总 体 均值 的 t 检验 ， 取 检验 统计 旱 


Tj — Tj. 





EE izj j2iAeagrn (7.7) 
当 Ho 成 立时 ， duc tn 一 7). 所 以 当 
tyl > tg(n — r) (7.8) 
时 ， 说 明 u; 与 n; 差异 显著 . 定义 相应 的 P- fü 
Pij = P{ t(n =r) > lisl }, (7.9) 


即 服从 自由 度 为 n 一 7 的 + 分 布 的 随机 变量 大 于 |tij| 的 概率 . 上 述 方法 等 价 于 当 
pj < 时， 与 J 225 

ZE t 检验 方法 的 优点 是 使 用 方便 . 但 在 均值 的 多 重 检 验 中 ， 如 果 因 素 的 水 
平 较 多 ， 而 检验 又 是 同时 进行 的 ， 多 次 重复 使 用 t 检验 会 增 大 犯 第 一 类 错误 的 概 
率 ， 所 得 到 的 “有 显著 差异 ”的 结论 不 一 定 可 靠 . 

2. P- 值 的 修正 

为 了 克服 多 重 t 检验 方法 的 缺点 , 统计 学 家 们 提出 了 许多 更 有 效 的 方法 来 调 
整 P- 值 ， 由 于 这 些 方法 涉及 较 深 的 统计 知识 ， 这 里 只 作 简 单 的 说 明 . 具体 调整 
方法 的 名 称 和 参数 见 表 7.6. 

R 软件 p- 值 调 整 函 数 是 p.adjust(), 其 使 用 方法 如 下 : 

p.adjust(p, method = p.adjust.methods, n = length(p)) 





p.adjust.methods 
# c("holm", "hochberg", "hommel", "bonferroni", 


"BH" "By" "fdr" "none" 
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表 7.6: P- 值 的 调整 方法 





调整 方法 R 软件 中 的 参数 
Bonferroni "bonferroni" 
Holm (1979) "holm" 
Hochberg (1988) "hochberg" 
Hommel (1988) "hommel" 
Benjamini & Hochberg (1995) "BH" 

Benjamini & Yekutieli (2001) "By" 


其 中 p 是 由 P- 值 构成 的 向 量 . method 是 修正 方法 ， 缺 省 值 是 Holm 方法 ， 即 
参数 "holm". 关于 其 他 方法 的 进一步 解释 ,请 见 p.adjust() 函数 的 在 线 帮助 . 

3. 均值 的 多 重 比较 的 计算 

R 软件 中 的 pairwise.t.test() 函数 可 以 得 到 多 重 比较 的 p 值 ， 其 使 用 方 
法 如 下 : 

pairwise.t.test(x, g, p.adjust.method = p.adjust.methods, 
pool.sd = TRUE, ...) 

其 中 x 是 响应 向 量 . g 是 因子 向 量 . p.adjust.method jé p 值 的 调整 方法 , 其 方法 
由 函数 p.adjust O 给 出 , 参数 值 由 表 7.6 所 示 . 如 果 p.adjust.method-"none" 
表示 p- 值 是 由 式 (7.7) 和 式 (7.9) 计算 出 的 ， 不 作 任何 调整 ， 缺 省 值 按 Holm 方 
法 ("holm") 作 调 整 . 
例 7.4 ( 续 例 7.3) 由 于 在 例 7.3 中 太 检 验 的 结论 是 拒绝 Ho, 请 进一步 检验 














Ho : Hi — Hj, t, j zm 1,2, 3. 


解 : 首先 计算 各 个 因子 间 的 均值 ， 再 用 多 重 {t 检验 方法 作 检验 ， 也 就 是 说 ， 
p- 值 不 作 任何 调整 ,. (程序 名 ， exam0704.R) 
#### 戏 数据 在 各 水 平 下 的 均值 
> attach (mouse) 
> mu«-c(mean(X[A--1]), mean(X[A--2]), mean(X[A==3])); mu 
[1] 3.818182 7.700000 7.083333 

















7.1 单 因素 方差 分 析 


#### 作 多 重 七 检验 


> pairwise.t.test(X, A, p.adjust.method = "none") 





MU 


Pairwise comparisons using t tests with pooled SD 

data: X and A 

1 2 
2 0.00072 - 
3 0.00238 0.54576 
P value adjustment method: none 
将 计算 结果 列 入 表 中 ， 如 表 7.7 Bm. 

d 7.7: 均值 多 重 检验 p 值 表 
Pij 

1.00000 0.00072 0.00238 
0.00072 1.00000 0.54576 


0.00238 0.54576 1.00000 





观察 两 个 作 调整 后 p- 值 的 情况 ， 
> pairwise.t.test(X, A, p.adjust.method = "holm") 
Pairwise comparisons using t tests with pooled SD 
data: X and A 
1 2 
2 0.0021 - 
3 0.0048 0.5458 
P value adjustment method: holm 
> pairwise.t.test(X, A, p.adjust.method = "bonferroni") 
Pairwise comparisons using t tests with pooled SD 
data: X and A 
1 2 
2 0.0021 - 
3 0.0071 1.0000 


P value adjustment method: bonferroni 
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从 这 两 组 数据 可 以 看 出 ， 调 整 后 的 p- 值 会 增 大 ， 在 一 定 程度 上 会 克服 多 重 
t 检验 方法 的 缺点 . 

从 上 述 计算 结果 (无 论 是 调整 后 的 p- 值 还 未 调整 的 p- 值 ) 可 见 ， Hi 与 po, 
Hi 与 us HAREZ, M uo 与 us 没有 显著 差异 . 即 小 白鼠 所 接种 的 三 种 不 同 
菌 型 的 伤寒 杆菌 中 第 一 种 与 后 两 种 使 得 小 昌 鼠 的 平均 存活 天 数 有 显著 差异 . 而 后 
两 种 差异 不 显著 . 

从 箱 线 图 也 能 看 出 这 种 情况 ， 见 图 7.2 所 示 . 


> plot(mouse$X^mouse$A) 




















mouse$X 























mouse$A 


图 7.2: 小 白鼠 平均 存活 天 数 的 箱 线 图 


7.1.5 ”方差 的 齐 次 性 检验 
要 进行 方差 分 析 ， 应 当 具 备 以 下 三 个 条 件 : 
(1) 可 加 性 . 假设 模型 是 线性 可 加 模型 ， 每 个 处 理 效 应 与 随机 误差 是 可 以 炙 
加 的 ， 即 
Tij = 从 + Qi 十 €ij. 


(2) 独立 正 态 性 . 试验 误差 应 当 服 从 正 态 分 布 、 而 且 相 互 独立 . 
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(3) 方差 齐 性 不同 处 理 间 的 方差 是 一 致 的 ， 即 满足 假设 


Pp 
Ho: .01 = 03 =t 


gs 


2 
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(7.10) 


对 于 常用 的 试验 来 说 , 大 都 能 满足 以 上 三 个 条 件 . 对 于 有 些 不 满足 条 件 的 试 


验 ， 可 以 先进 行 数据 变换 再 进行 方差 分 析 . 





面 对 试 验 结果 ， 如 有 果 对 误差 的 正 态 性 和 方差 齐 性 没有 把 握 ， 则 应 进行 检验 . 


1. 误差 的 正 态 性 检验 


误差 的 正 态 性 检验 本 质 上 就 是 数据 的 正 态 性 检验 ， 可 以 用 第 三 章 介 绍 的 W 


检验 (shapiro.test() 函数 ) 方法 对 数据 作 正 态 性 检验 . 


例 7.5 对 例 7.1 的 数据 作 正 态 性 检验 . 
fü. 调用 shapiro.testO K. 

> attach(lamp) 
» shapiro.test(X[A--1]) 


Shapiro-Wilk normality test 


data: X[A == 1] 


W = 0.9423, p-value = 0.6599 


> shapiro.test(X[A--2]) 


Shapiro-Wilk normality test 


data: X[A == 2] 


W = 0.9384, p-value = 0.6548 


> shapiro.test(X[A--3]) 


Shapiro-Wilk normality test 


data: X[A == 3] 


W = 0.8886, p-value = 0.2271 


> shapiro.test(X[A--4]) 


Shapiro-Wilk normality test 


data: X[A == 4] 


W = 0.9177, p-value = 0.4888 
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计算 结果 表明 ， 例 7.1 中 数据 在 四 种 水 平 下 的 均 是 正 态 的 . 


2. 方差 齐 性 检验 
方差 齐 性 检验 就 是 检验 数据 在 不 同 水 平 下 方差 是 否 相同 . 方差 齐 性 检验 最 党 
用 的 方法 是 Bartlett 检验 ， 当 各 处 理 组 的 数据 较 多 时 ， 令 





Ni 








2 = .. =— ". 2 
Bur es EX] 2. (Tij — 2i) , 
pu i : C — 182 
repete i 
eo gm E E S esie. (n—r)! 
Stel e ! ' 
n = 1 十 12 十 :… 十 7Tr. 


在 假设 (7.10) 成 立时 ， 统 计量 


K?’ = xe L — r)In $? — S — 1) ss (7.11) 


C ; 
i=l 





近似 服从 自由 度 为 "一 工 的 X 分 布 . 当 
K? >x (r-1) 或 P{ 人 >K2 <a 


时 ,拒绝 Ho, 即 认为 至 少 有 两 个 处 理 组 数据 的 方差 不 等 ; 否则， 认为 数据 满足 方 
差 齐 性 的 要 求 ， 
R 软件 中 ， bartlett.testO 函数 提供 是 Bartlett 检验 ， 其 使 用 格式 为 
bartlett.test(x, g, ...) 
bartlett.test(formula, data, subset, na.action, ...) 
其 中 x 是 由 数据 构成 的 向 量 或 列表 g 是 由 因子 构成 的 向 量 ， 当 x 是 列表 时 ， 
此 项 无 效 . formula 是 方差 分 析 的 公式 ， data 是 数据 框 . 其余 见 在 线 帮助 . 
例 7.6 对 例 7.1 的 数据 作 Bartlett 方差 齐 性 检验 . 
ff. 
> bartlett.test(X^A, data-lamp) 
Bartlett test of homogeneity of variances 
data: X by A 
Bartlett?s K-squared = 5.8056, df = 3, p-value = 0.1215 
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P- 值 (0.1215)> 0.05, 接受 原 假设 Ho, 认为 各 处 理 组 的 数据 是 等 方差 的 . 
A fe 
bartlett.test(lamp$X, lamp$A) 


具有 相同 的 效果 . 


7.1.6 Kruskal-Wallis 秩 和 检验 


方差 分 析 过 程 需要 者 干 条 件 ， 了 检验 才能 奏效 ， 可 借 有 时 候 所 采集 的 数据 
常常 不 能 满足 这 些 条 件 . 事实 上 ， 即 使 有 一 个 条 件 不 满足 都 会 令 我 们 陷入 和 塌 众 之 
中 . 象 两 样本 比较 时 一 样 ， 不 妨 尝试 将 数据 转化 为 秩 统 计量 ， 因 为 秩 统 计量 的 分 
布 与 总 体 分 布 无 关 ， 可 以 摆脱 总 体 分 布 的 束缚 . 在 比较 两 个 以 上 的 总 体 时 ， 广泛 
使 用 的 Kruskal-Wallis 秩 和 检验 , 它 是 对 两 个 以 上 样本 进行 比较 的 非 参数 检验 方 
ik. 实质 上 ， 它 是 两 样本 的 Wilcoxon 方法 在 多 于 两 个 样本 时 的 推广 . 

给 定 n 个 个 体 用 以 s(s > 3) 种 处 理 方法 的 效果 比较 ， 将 这 n 个 个 体 随机 地 
分 为 s 组 ， m 组 有 ni 个 ， 并 指定 这 ni 个 个 体 接受 第 i 种 处 理 方法 的 试验 


(i — 1,2,---,s), E Yon 当 试 验 结束 后 ， 将 这 n 个 个 体 放 在 一 起 根据 
处 理 效果 的 优 劣 排序 得 到 各 自 的 秩 . 记 第 i 组 的 ni 个 个 体 的 秩 为 





Ria, Riz: "isa 1—1,2,-..,8. 


并 设 观测 值 中 无 结 点 ， 即 Ra < Ba <… < Ba = 1,2,…,5). 检验 的 目的 是 
根据 这 些 秩 统 计量 检验 假设 
Ho : 各 处 理 方法 的 效果 无 显著 差异 

能 否 接受 . 

为 了 构造 合适 的 检验 统计 量 ， 只 有 原 假设 是 不 够 的 ， 还 应 对 相应 的 备 择 假设 
有 足够 的 了 解 。 Kruskal-Wallis 秩 和 检验 考虑 的 是 最 常见 的 一 种 备 择 假设 ， 即 各 
方法 的 处 理 效 果 知 有 差异 , 其 差异 主要 反映 在 各 组 个 体 的 处 理 效 果 的 度量 值 的 分 
AE 换 名 话说， 者 各 方法 的 处 理 效 果 有 显著 差异 ， 则 接受 各 方法 试验 的 个 体 的 
秩 之 间 有 一 个 排序 ， 其 中 某 些 方法 中 个 体 的 秩 趋 于 取 较 小 值 ， 男 一 些 方法 中 个 体 
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的 秩 趋 于 取 较 大 的 值 ， 下 面 针 对 此 类 备 择 假设 构造 检验 统计 量 . S 

Li 十 Ra 十 十 用 
Tli i 

1o 1 

L3 R7 s. 

i=1 j=1 

其 中 R. 是 第 i 组 个 体 的 秩 的 平均 值 (i = 1,2,8), R. 是 总 的 平均 值 . 者 各 方 

法 处 理 效 果 之 间 有 显著 差异 ， 按 上 述 备 择 假设 ， 则 Ri(i = 1,2,.…,s) 相互 差异 

小 , 且 均 分 散在 R. 附近 . 因此 , 可 以 用 (Ri R.Y 的 加 权 和 来 度量 各 Ri 与 R. 


的 接近 程度 . 令 
12 « n+1 


i=1 


Re = i = 1,2,...,s, (7.12) 


R.. 











称 K Jy Kruskal-Wallis 统计 量 , Æ Ho PR, M K 有 偏 大 的 趋势 ， 因 此 ， 其 拒 
绝 域 形 式 为 
K >c. 
或 者 计算 出 相应 的 P- f, 3:5 P— 值 小 于 相应 的 显著 性 水 平 ， 则 拒绝 原 假设 . 
上 述 检 验方 法 称 为 Kruskal-Wallis 秩 和 检验 . 
R 软件 提供 了 Kruskal-Wallis 秩 和 检验 ， 其 函数 为 kruskal.testO, 使 用 方 
法 如 下 
kruskal.test(x, g, ...) 
kruskal.test(formula, data, subset, na.action, ...) 
其 中 x 是 由 数据 构成 的 向 量 或 列表 .， g 是 由 因子 构成 的 向 量 ， 当 x 是 列表 时 ， 
此 项 无 效 ， formula 是 方差 分 析 的 公式 ， data 是 数据 框 ， 其 余 见 在 线 帮助 ， 
例 7.7 为 了 比较 属 同一 类 的 四 种 不 同 食谱 的 营养 效果 ， 将 25 只 老鼠 随机 地 分 为 
498, 每 组 分 别 是 8 只 ，4 只 ，7 只 和 6 只 ,各 采用 食谱 甲 、CL、 两 、 丁 喂养 . 假 
设 其 他 条 件 均 保持 相同 ，12 周 后 测 得 体重 增加 量 如 表 7.8 所 示 . 对 于 a= 0.05, 
检验 各 食谱 的 营养 效果 是 否 有 显著 差异 . 
解 : 根据 题 意 ， 原 假设 为 
Ho: 各 的 营 食 谱 养 效果 无 显著 差异 ， Hi : 各 的 营 食 谱 养 歼 果 有 显著 差异 . 
输入 数据 ， 调 用 kruskal.test() 函数 作 检 验 (程序 名 : exam0707 .BR). 








表 7.8: 12 周 后 25 只 


fd 
kd 164 
G 185 
m 187 
F 202 





> food«-data.frame( 
x-c(164, 190, 
185, 197, 
187, 212, 
202, 204, 


190 
197 
212 
204 


203, 
201, 
215, 
207, 


Tl 单 因素 方差 分 析 


203 
201 
215 
207 


鼠 的 体重 增加 量 (单位 ; vu) 


体重 增加 值 


205 
231 
220 
227 


206 


248 
230 


214 228 
265 281 
276 


205, 206, 214, 228, 257, 


231, 


220, 248, 265, 281, 
227, 230, 276), 


g=factor(rep(1:4, c(8,4,7,6))) 


) 


> kruskal.test(x^g, data-food) 


Kruskal-Wallis rank sum test 


data: x by g 


Kruskal-Wallis chi-squared - 4.213, df - 


257 


3, p-value = 0.2394 
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P- 值 = 0.2394 > 0.05, 无 法 拒绝 原 假设 ， 认 为 各 的 营 食 谱 养 效果 无 显著 差异 . 


男 两 种 写法 ， 


kruskal.test(food$x, food$g) 


A«-c(164, 190, 203, 205, 206, 


B«-c(185, 197, 201, 231) 


C«-c(187, 212, 215, 220, 248, 
D«-c(202, 204, 207, 227, 230, 


kruskal.test(list(A,B,C,D)) 


可 以 达到 同样 的 效果 . 


对 上 述 数 据 作 正 态 检验 和 方差 齐 性 检验 


> attach(food) 


214，228，257) 


265, 281) 
276) 
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> shapiro.test(x[g--1]) 
Shapiro-Wilk normality test 

data: x[g == 1] 

W = 0.9619, p-value = 0.828 


> shapiro.test(x[g--2]) 
Shapiro-Wilk normality test 

data: x[g == 2] 

W = 0.9084, p-value = 0.4741 


> shapiro.test(x[g--3]) 
Shapiro-Wilk normality test 

data: x[g == 3] 

W = 0.9523, p-value = 0.7506 


> shapiro.test(x[g--4]) 
Shapiro-Wilk normality test 

data: x[g == 4] 

W = 0.8182, p-value = 0.08516 


> bartlett.test(x^g, data-food) 
Bartlett test of homogeneity of variances 
data: x by g 
Bartlett's K-squared = 0.9328, df = 3, p-value = 0.8175 


全 部 通过 检验 ， 因 此 ， 上 述 数据 也 可 以 作 方 差分 析 . 


> source("anova.tab.R") 
> anova.tab(aov(x^g, data-food)) 

Df Sum Sq Mean Sq F value Pr(C>F) 
g 3 3308.1 1102.7 1.378 0.2769 
Residuals 21 16803.9 800.2 
Total 24 20112.0 
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其 结论 是 相同 的 ， 即 认为 各 的 营 食 谱 养 效果 无 显著 差异 . 
7.1.7 Friedman 秩 和 检验 

在 配伍 组 设计 中 ,多 个 样本 的 比较 ， 如 果 它 们 的 总 体 不 能 满足 正 态 性 和 方差 
齐 性 的 要 求 ， 可 采用 Friedman 秩 和 检验 . 

Friedman 秩 和 检验 的 基本 思想 与 前 面 介绍 的 方法 类 似 ， 但 是 配伍 组 设计 的 
随机 化 是 在 配伍 组 内 进行 的 , 而 配伍 组 间 没 有 进行 随机 化 . 因此 在 进行 Friedman 
秩 和 检验 时 ， 是 分 别 在 每 个 配伍 组 内 将 数据 从 小 到 大 编 秩 , 如果 相同 的 数据 取 平 
均 秩 次 . RA N 个 配伍 组 ，s 个 处 理 水 平 , 则 不 同 配 伍 组 的 秩 和 相等 , Hj 5670. 
且 平 均 秩 次 与 总 平均 秩 次 相等 ， 都 等 于 < 号 ,这 正好 对 应 于 随机 区 组 设计 的 方 
差分 析 ， 由 于 配伍 组 间 没 有 进行 随机 化 ， 因 此 无 须 对 配伍 组 因素 进行 检验 . 

Friedman 检验 统计 量 Q 的 计算 为 


S 


12N 1 j 
e a (7.15) 


其 中 


1 
Ri = (Hac R +++- Rin), Del 9-5. 


Ri; 表示 第 i 个 处 理 组 第 j 个 数据 的 秩 次 . 
Friedman 秩 和 检验 的 原 假设 为 
Ho : 各 方法 的 处 理 效果 无 显著 差异 . 
其 备 择 假设 主要 考虑 各 方法 的 处 理 效 果 使 各 个 体 的 效果 度量 趋 于 增加 或 减少 . E 
Ho 不 真 时 ， 则 Q 有 偏 大 的 趋势 ， 因 此 拒绝 域 的 形式 为 
Qe. 


或 用 相应 的 P- 值 进 行 检 验 . 上 述 检验 方法 称 为 Friedman 秩 和 检验 . 
令 了 为 第 i 个 处 理 组 的 秩 和 ， 即 


T; = NR; = Ra + Ri +--+ Rin, 人 





则 Q 又 可 以 表示 为 


12 S 
Prep ie NEEN (7.16) 


i= 
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A (7.16) 更 便于 实际 计算 . 
R 软件 中 ,函数 friedman.test() T Friedman 秩 和 检验 ， 其 使 用 方法 
是 
friedman.test(y, ...) 
friedman.test(y, groups, blocks, ...) 
friedman.test(formula, data, subset, na.action, ...) 


其 中 y 是 数据 构成 的 向 量 或 叫 阵 ， groups 是 与 y 有 同样 长 度 的 向 量 ， 其 内 容 表 
m y 的 分 组 情况 ， blocks 5 y 有 同样 长 度 的 向 量 ， 其 内 容 表 示 y 的 水 平 . 当 y 
是 矩阵 时 ， groups 和 blocks 无 效 ， 其 他 使 用 方法 见 在 线 帮助 . 
f| 7.8 24 只 小 鼠 按 不 同 窜 别 分 为 8 个 区 组 ， 再 把 每 个 区 组 中 的 观察 单位 随机 分 
配 到 3 种 不 同 的 饲料 组 ， 喂 养 一 定时 间 后 ， 测 得 小 鼠 肝 中 铁人 含量， 结果 如 表 7.9 
Pp. o 试 分 析 不 同 饲料 的 小 鼠 肝 中 的 铁 含量 是 否 不 同 . 

表 7.9: 不 同 饲 料 组 小 鼠 肝 脏 中 铁 含量 (单位 ug/g) 





WX) (配伍 组 ) 1 2 3 4 5 6 7 8 
饲料 A 1.00 1.01 1.13 1.14 1.70 2.01 2.23 233 
饲料 B 0.96 1.28 1.54 1.96 2.94 3.68 5.59 6.96 
饲料 C 2.07 3.72 4.50 4.90 6.00 6.84 $823 10.33 


解 : 输入 数据 ， 调 用 friedman.testO KA (程序 名 : exam0708 .BR). 
> X«-matrix( 
c(1.00, 1.01, 1.13, 1.14, 1.70, 2.01, 2.23, 2.63, 
0.96, 1.23, 1.54, 1.96, 2.94, 3.68, 5.59, 6.96, 
2.07, 3.72, 4.50, 4.90, 6.00, 6.84, 8.23, 10.33), 
ncol-3, dimnames=list(1:8, c("A", "B", "C")) 
) 
> friedman.test(X) 
Friedman rank sum test 
data: X 
Friedman chi-squared - 14.25, df - 2, p-value - 0.0008047 
P- 值 = 0.0008047 < 0.05, 拒绝 原 假设 ， 认 为 不 同 饲料 的 小 鼠 肝 中 的 铁 含 量 有 
显著 差异 . 
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另 两 种 写法 ， 

x<-c(1.00, 1.01, 1.13, 1.14, 1.70, 2.01, 2.23, 2.63, 
0.96, 1.23, 1.54, 1.96, 2.94, 3.68, 5.59, 6.96, 
2.07, 3.72, 4.50, 4.90, 6.00, 6.84, 8.23, 10.33) 

g<-g1 (3,8) 

b<-g1(8,1,24) 

friedman.test(x,g,b) 


和 
mouse«-data.frame( 
x=c(1.00, 1.01, 1.13, 1.14, 1.70, 2.01, 2.23, 2.63, 
0.96, 1.23, 1.54, 1.96, 2.94, 3.68, 5.59, 6.96, 
2.07, 3.72, 4.50, 4.90, 6.00, 6.84, 8.23, 10.33), 
g=g1 (3,8), 
b=g1 (8,1,24) 
) 
friedman.test(x^glb, data-mouse) 
可 以 达到 同样 的 效果 . 


7.2” 双 因素 方差 分 析 


在 大 量 的 实际 问题 中 , 需要 考虑 影响 试验 数据 的 因素 多 于 一 个 的 情形 . 例如 
在 化 学 试验 中 , 几 种 原料 的 用 量 , 反应 时 间 , 温度 的 控制 等 都 可 能 影响 试验 结果 ， 
这 就 构成 多 因素 试验 问题 ， 本 节 讨 论 双 因素 试验 的 方差 分 析 ， 
例 7.9 在 一 个 农业 试验 中 ， 考 虑 四 种 不 同 的 种 子 品 种 A, A, A3, A4 和 三 种 不 
同 的 施肥 方法 Di, Bo, Bs 得 到 产量 数据 如 表 7.10 所 示 (单位 ， kg). 试 分 析 种 
子 与 施肥 对 产量 有 无 显著 影响 ? 

这 是 一 个 双 因 素 试验 ， 因 素 4( 种 子 ) 有 四 个 水 平 ， 因 素 B( 施 肥 ) 有 三 个 水 
CF. 我 们 通过 下 面 的 双 因素 方差 分 析 法 来 回答 以 上 问题 ， 

RA A,B 两 个 因素 ， 因 素 4 有 7 个 水 平 41, Ass 4A, ; 因素 有 s 个 
水 平 Bi1, Bo, …, B;. 
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表 7.10: 农业 试验 数据 


Bı B» Ba 
Ai 325 292 316 
A» 317 310 318 
Aa 310 320 318 
A4 330 370 365 





7.2.1 不 考虑 交互 作用 


1. 数学 模型 
在 因素 A, B 的 每 一 种 水 平 组 合 (A, B) 下 进行 一 次 独立 试验 得 到 观测 值 


表 7.11: 无 重复 试验 的 双 因 素 方 差分 析 数 据 





Bi B» B; 
Ai Xii 112 Tis 
A» X21 T22 X25 
A, Tri X2 Trs 





假定 Tij ~ N(uig,o?), 1—12,-..,70,43—1L12,-.s. 且 各 Tij 相互 独立 .不 
考虑 两 因素 间 的 交互 作用 ， 因 此 数据 可 以 分 解 为 


4 订 二 从 | Qi | Bj | €ij i= 1,2, r, j112,:.,s, 





Eij OX N(0, o°), H €ij 相互 独立 ， (7.17) 
>》 as rz 0, $8; — 0, 
i=1 j=1 
1 T S 
其 中 4 = — $2 mw 为 总 平均 ， os 为 因素 4 的 第 i 个 水 平 的 效应 ， 6; 为 因 


i=1 j=1 


R B 的 第 7 个 水 平 的 效应 . 
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2. 方差 分 析 


在 线性 模型 (7.17) 下 ， 方 差分 析 的 主要 任务 是 ， 系统 分 析 因 素 A 和 因素 B 
对 试验 指标 影响 的 大 小 ， 因 此 ， 在 给 定 显 著 性 水 平 a 下 ， 提 出 如 下 统计 假设 : 
对 于 因素 4,“ 因 素 A 对 试验 指标 不 显著 ”等 价 于 





Hoi : Qı CQ2 NR Qr 0. 





对 于 因素 B,“ 因 素 B 对 试验 指标 不 显著 ”等 价 于 





Hos: 3-3: = 6,=0. 





双 因 素 方差 分 析 与 单 因素 方差 分 析 的 统计 原理 基本 相同 , 也 是 基于 平方 和 分 
解 公 式 
ST = Sp + SA + SB, 
其 中 


ST = ps3 (rij — T}, Tei 9293 Tij, 


i=1 j=1 i=1 j=1 


TN 3 


1 s 
[9p e my. X = 2 Tij, t= aret 
j=1 


1 
- L2 : 
SB = r (z; 一 元 omm 22 doc j= 1,2,...,s, 
j=1 i-l 
: 


[^] 


Sg 一 (35s cd Tr; < T.j + z), 


i=1 j=1 


其 中 Sr 为 总 离 差 平方 和 ， Se 为 误差 平方 和 ， Sa 是 由 因素 A 的 不 同 水 平 所 引 
起 的 离 差 平方 和 ( 称 为 因素 4 的 平方 和 ). 类 似 地 ， Se 称 为 因素 B 的 平方 和 . 
可 以 证 明 当 Hoi 成 立时 ， 


SA/a? $4 x (r e 1), 
HS5 Sg 相互 独立 ， 而 


Sg/o^ c» x*((r — 1)(s — 1). 
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于 是 当 Ho 成 立时 ， 

Sa/(r RS 1) 
Sg/[(r — 1)(s — 1)] 
类 似 地 ， 当 Hoo 成 立时 ， 

Sp/ (s = 1) 
Sg/[(r — 1)(s — 1)] 


分 别 以 Fa, Fe 作为 Hoi, Ho» 的 检验 统计 量 ， 将 计算 结果 列 成 方差 分 析 表 ， 如 表 
7.12 所 示 . 


Te ~ F(r—-l,(r-1)(s-1)). 


Fg = ~ F(s-—l1,(r-1)(s-1)). 


表 7.12: 双 因 素 方 差分 析 表 

方差 来 源 
因素 A 
因素 B MS, — &z. 
ix 差 MSp = 
总 和 


SE 
(r—1)(s—1) 





3. 方差 分 析 表 的 计算 


仍然 用 aov() 函数 计算 双 因 素 方 差分 析 表 7.12 中 的 各 种 统计 量 . 
例 7.10 ( 续 例 7.9) 对 例 7.9 的 数据 作 双 因素 方差 分 析 ， 试 确定 种 子 与 施肥 对 产 
量 有 无 显著 影响 ? 

解 : 输入 数据 ， 用 aov() 函数 求解 . 与 单 因 素 方差 分 析 相 同 ， summary () 
无 法 给 出 总 和 行 ， 这 里 用 自 编 的 函数 anova.tabO 得 到 方差 分 析 表 (程序 名 : 
exam0710 .BR). 
#### 用 数据 框 的 形式 输入 数据 
> agriculture<-data.frame( 

Y=c(325, 292, 316, 317, 310, 318, 

310, 320, 318, 330, 370, 365), 
A=g1 (4,3), 
B=g1 (3,1,12) 
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#### 作 双 因素 方差 分 析 

> agriculture.aov <- aov(Y ^ A+B, data-agriculture) 
HHHH 调用 自 编 函数 anova.tabO, 显示 计算 结果 

> source("anova.tab.R"); anova.tab(agriculture.aov) 


Df Sum Sq Mean Sq F value PrF) 


人 3 3824.2 1274.7 5.2262 0.04126 * 

B 2 162.5 81.2 0.3331 0.72915 

Residuals 6 1463.5 243.9 

Total 11 5450.3 

Signif. codes: 0 ’***’ 0.001 "**? 0.01 ^x" 0.057. 0.1? ^ 1 


根据 p 值 说 明 不 同 品种 对 产量 有 显著 影响 ， 而 没有 充分 理由 说 明 施 肥 方 法 
对 产量 有 显著 的 影响 . 

事实 上 在 应 用 模型 (7.17) 时 ， 遵 循 着 一 种 假定 ， 即 因素 A, B 对 指标 的 效应 
是 可 以 全 加 的 . 而且 认为 因素 4 的 各 水 平 效 应 的 比较 ,与 因素 B 在 什么 水 平 无 
A. 这 里 并 没有 考虑 因素 A, B 的 各 种 水 平 组 合 (Ai, Bi) 的 不 同 给 产量 带 来 的 影 
Wi. 而 这 种 影响 在 许多 实际 工作 中 是 应 该 给 予 足够 的 重视 的 ， 这 种 影响 被 称 为 交 
互 效 应 .这 就 导出 下 面 所 要 讨论 的 问题 . 


7.2.2 ”考虑 交互 作用 





1. 数学 模型 
设 有 两 个 因素 4 和 B, 因素 4 有 7 个 水 平 A, 42,…, AS 因素 B 有 s 个 水 
Lijk, 将 观测 数据 列表 ， 如 表 7.13 所 示 . 
假定 
Sopa v i=1,2,...,r; j=1,2,...,5; k=1,2,...,t, 


f Tijk 相互 独立 . 所以， 数据 可 以 分 解 为 
Tijk = U + it Pj 0i; + Eijk, 
Eijk ~ N(0, 0°), HE eis 相互 独立 ， (7.18) 
pcd sae ye Re 
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表 7.13: 双 因 素 重复 试验 数据 


X15113182 ^7 ^ List 


325117282 ` * * X25 





Lrs1Lrs2 77 Lrst 


其 中 a 为 因素 4 的 第 ;个 水 平 的 效应 ， 亡 为 因素 B 的 第 7 个 水 平 的 效应 . 


表示 Ai 和 B; 的 交互 效应 ， 因 此 有 


i-l j=1 


1 T S T S 
uo 5,2. 32-0 385;-0 $652 5,5 70. 
il j=1 j 














i=1 j=1 

2. 方差 分 析 

此 时 判断 因素 A, B 及 交互 效应 的 影响 是 否 显 彰 等 价 于 检验 下 列 假设 
Ho : Q1 = 09—:::—0,-—60, 
Hoz : Bi = b2 em B, = 0, 





Hos : 0i; = 0, T= N Daen j—12,:.s. 
在 这 种 情况 下 ， 方 差分 析 法 与 前 两 节 的 方法 类 似 ， 有 下 列 计算 公式 ; 


Spy = Sg + SA + SB + 5axp, 


其 中 

T s t T S t 

$& - Y a s): 
i-l j=1 k=1 ra j=1 k=1 
r s t 

SE = 3 >》 >》 (ti — 24), 
i=1 j=1 k=1 
1 t 


Tij. m T D Tik 1 一 1 2 7 了 = 1,2,...,8, 
k=l 
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s t 
DA = st (Zi. — 2)’, T DD Tijk, = 1,2, r, 


i=1 j=1 k=1 


r t 
Sg = rt (Z; — Z), dg. =D Xe j= 1,2,8, 


j=1 i=1 k=1 


SAxB = i. » 5g: mE — T.j. + 2 


i=1 j=1 





其 中 Sr 为 总 离 差 平方 和 ， Se 为 误差 平方 和 ， 54 为 因素 A 的 平方 和 ， 5 为 
因素 B 的 平方 和 ， Saxe 为 交互 效应 平方 和 ， 可 以 证 明 : 24 Hoi 成 立时 ， 


Pa = ~ Pe brst- D) 


当 Hoo 成 立时 ， 


二 
A o en a 


当 Hos 成 立时 ， 


FaxB = Dep S. e F((r —1)(s — 1), rs(t — 1)). 


分 别 以 FA, Fg, Faxe 作为 Hoi, Hos, Hos 的 检验 统计 量 ， 将 检验 结果 列 成 方差 


表 7.14: 有 交互 效应 的 双 因 素 方差 分 析 表 


方差 来 源 
因素 A MS, = 
因素 B M5Sp= 加 
交互 效应 _ SAxB 
AxB (r—1)(s—1) 
R 差 MSg = zy 
总 和 





分 析 表 ， 如 表 7.14 所 示 . 
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例 7.11 研究 树种 与 地 理 位 置 对 松树 生长 的 影响 ， 对 四 个 地 区 的 三 种 同龄 松树 的 
直径 进行 测量 得 到 数据 如 下 表 TIS 所 示 ($ cm). Ai An As 表示 三 个 不 


表 7.15: 三 种 同龄 松树 的 直径 测量 数据 


Ba 
20 21 18 
27 24 
26 26 28 
29 23 
22 13 12 





22 19 


同 树 种 ， Bi, Bo Bs, Ba 表示 四 个 不 同 地 区 .对 每 一 种 水 平 组 会 ， 进 行 了 5 次 测 
量 ， 对 此 试验 结果 进行 方差 分 析 . 
解 : 用 数据 框 的 形式 输入 数据 ， 调 用 aovO 函数 计算 ， 再 调用 anova.tabO 
函数 显示 (程序 名 : exam0711.R). 
> tree<-data.frame( 
Y=c(23, 25, 21, 14, 15, 20, 17, 115 26, 21, 
16, 19, 13, 16, 24, 20, 21, 18, 27, 24, 
28, 30, 19, 17, 22, 26, 24, 21, 25, 26, 
19, 18, 19, 20, 25, 26, 26, 28, 29, 23, 
18, 15, 23, 18, 10, 21, 25, 12, 12, 22, 
19, 23, 22, 14, 13, 22, 13, 12, 22, 19), 
A=g1(3,20,60), 
B=g1 (4,5,60) 
) 
> tree.aov <- aov(Y ^ A*B*A:B, data=tree) 
> source("anova.tab.R"); anova.tab(tree.aov) 
Df Sum Sq Mean Sq F value PrF) 
人 2 352.53 176.27 8.9589 0.000494 *** 


B 3 87.52 
A:B 6 71.73 
Residuals 48 944.40 
Total 59 1456.18 


Signif. codes: 0 "xxx! 


7.2 双 因 素 方 差分 析 


29.17 1.4827 0.231077 
11.96 0.6077 0.722890 
19.67 


0.001 ?**? 0.01 ’*’ 0.05 ^. 
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可 见 在 显著 性 水 平 a= 0.05 下 ， 树 种 ( 行 ) 效应 是 高 度 显著 的 ， 而 位 置 ( 列 ) 


效应 及 交互 效应 并 不 显著 . 


7.2.3 ”方差 齐 性 检验 


与 单 因素 方差 分 析 相 同 , 对 于 双 因 素 方 差分 析 , 数据 也 应 满足 正 态 性 和 方差 


齐 性 的 要 求 . 


例 7.12 检验 例 7.11 中 的 数据 对 于 因素 4 和 因素 BATRES? 是 否 满 足 


方差 齐 性 的 要 求 ? 


解 : 仍然 采用 W 正 态 检验 检验 数据 的 正 态 性 ， 用 Bartlett 检验 检验 方差 齐 


性 (程序 名 : exam0712 .BR). 


> attach(tree) 
> shapiro.test(Y[A--1]) 


Shapiro-Wilk normality test 


data: Y[A = 1] 


W = 0.9759, p-value = 0.8703 


» shapiro.test(Y[A--2]) 


Shapiro-Wilk normality test 


data: Y[A == 2] 


W = 0.9439, p-value = 0.2837 


> shapiro.test(Y[A--3]) 


Shapiro-Wilk normality test 


data: Y[A = 3] 


W = 0.9106, p-value = 0.06552 
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> shapiro.test(Y[B--1]) 
Shapiro-Wilk normality test 

data: Y[B == 1] 

W = 0.9835, p-value = 0.988 


> shapiro.test(Y[B--2]) 
Shapiro-Wilk normality test 

data: Y[B == 2] 

W = 0.8537, p-value = 0.01963 


> shapiro.test(Y[B--3]) 
Shapiro-Wilk normality test 

data: Y[B == 3] 

W = 0.9483, p-value = 0.4986 


> shapiro.test(Y[B--4]) 
Shapiro-Wilk normality test 

data: Y[B == 4] 

W = 0.9452, p-value = 0.4521 


> bartlett.test(Y^A, data-tree) 

Bartlett test of homogeneity of variances 
data: Y by A 
Bartlett'/s K-squared = 0.59, df = 2, p-value = 0.7445 


> bartlett.test(Y^B, data-tree) 
Bartlett test of homogeneity of variances 
data: Y by B 
Bartlett's K-squared = 2.0436, df = 3, p-value = 0.5634 


数据 只 对 因素 B 的 第 二 个 水 平 不 满足 正 态 性 要 求 ， 其 余 均 满足 ， 对 于 因素 
A 和 因素 B 均 满 足 方差 齐 性 要 求 . 
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7.3 ” 正 交 试 验 设计 与 方差 分 析 


前 面 介绍 的 是 一 个 因素 或 两 个 因素 的 试验 ,由 于 因素 较 少 ， 可 以 对 不 同 因素 
的 所 有 可 能 的 水 乎 组 合 做 试验 ， 这 种 称 为 全 面试 验 , 当 因 素 较 多 时 ， 虽 然 理论 上 
仍 可 采用 前 面 的 方法 进行 全 面试 验 后 再 做 相应 的 方差 分 析 ， 但 是 在 实际 中 有 时 
会 遇 到 试验 次 数 太 多 的 问题 . 如 三 因素 四 水 平 的 问题 ， 所 有 不 同 水 平 的 组 合 有 
4 = 64 种 ,在 每 一 种 组 合 只 进行 一 次 试验 ， 也 需要 做 64 次 . 如 果 考 虑 更 多 的 因 
素 及 水 平 ， 则 全 面试 验 的 次 数 可 能 大 得 惊人 . 因此 在 实际 应 用 中 ， 对 于 多 因素 做 
全 面试 验 是 不 现实 的 . 于 是 可 以 考虑 是 否 选择 其 中 一 部 分 组 合 进 行 试验 ， 这 就 要 
用 到 试验 设计 方法 选择 合理 的 试验 方案 , 使 得 试验 次 数 不 多 , 但 也 能 得 到 比较 满 
意 的 结果 . 


7.3.1 ”用 正 交 表 安 排 试 验 


正 交 表 是 一 系列 规格 化 的 表格 ， 每 个 表格 都 有 一 个 记号 ， 如 La(2"), Lo(3) 
等 . 表 7.16 表示 的 是 正 交 表 Ls(27) 和 正 交 表 Lo(3). 以 Lo(3) 为 例 ， 工 表示 正 














表 7.16: 正 交 表 
Lg(27) 表 Ly(3*) x 
试验 列 号 试验 列 号 
号 2 3 4 5 6 7 号 |1 2 3 4 
1 1 1 1 1 1 1 1 1 1 1 1 
2 1 -i 2 95-39. 2 2 1 2 2 2 
3 2 2 1 1 2 2 3 |1 3 3 3 
4 J- i 23 
4 2 2 2 2 1 1 
5 2 2 3 1 
5 1 2 1 2 1 2 
6 2 3 1 2 
6 1 2 2 1 2 1 7 EE X 
7 2 1 X 2 1 8 3 2 1 3 
8 oc Ape 9 1 了 o9 9 3 c3. Oed 








AUR, 9 表示 正 交 表 的 行 数 ， 表 示 需 要 试验 次 数 . 4 是 正 交 表 的 列 数 ， 表 示 最 多 
可 以 安排 的 因素 的 个 数 . 3 是 因素 水 平 数 ， 表 示 此 表 可 以 安排 三 水 平 的 试验 . 





426 第 七 章 方差 分 析 


从 表 7.16 可 见 ， Lo(34) 有 9 行 ， 4 列 ， 表 中 由 数字 1, 2, 3 组 成 ， Ls(2”) 
有 8 行 ，7 列 ， 表 中 数字 由 1, 2 组 成 . 
用 正 交 表 安 排 试验 时 , 根据 因素 和 水 平 个 数 的 多 少 以 及 试验 工作 量 的 大 小 来 
考虑 用 哪 张 正 交 表 ， 下 面 举例 说 明 . 
例 7.13 为 提高 某 种 化 学 产品 的 转化 率 (只 ), 考虑 三 个 有 关 因 素 : 反应 温度 ACC), 
反应 时 间 B(min) ARE C(96). 各 因素 选取 三 个 水 平 ， 如 表 7.17 所 示 . 如 
表 7.17: 转化 率 试验 因素 水 平 表 





* s7 
1 2 3 
反应 温度 ACC) 80 85 90 
反应 时 间 B(min) 90 120 150 
用 碱 量 C(96) 5 6 7 


何 用 正 交 表 安 排 试验 得 到 较 好 的 生产 方案 ? 
解 ， 如 果 做 全 面试 验 ， 则 需要 3? = 27 次 试验 . 者 用 正 交 表 Lo(3'), 仅 做 9 
次 试验 . 将 三 个 因素 A.B, C 分 别 放 在 Ze(3 ) 表 的 任意 三 列 上 ,， 如 将 A, B,C 分 
别 放 在 第 1, 2, 3 AE. 将 表 中 A, B, C 所 在 的 三 列 的 数字 1, 2, 3 分 别 用 相应 的 
因素 水 平 去 代替 ,得 9 次 试验 方案 . 以 上 工作 称 为 表 头 设计 . 再 将 9 次 试验 结果 
转化 率 数据 列 于 表 上 ( 见 表 7.18). 
计算 各 种 因素 和 水 平 下 转化 率 的 平均 值 (尽管 计算 非常 简单 ,但 为 了 便于 推 
广 起 见 ， 还 是 用 R 软件 进行 计算 ). 
用 数据 框 形式 输入 转化 率 试验 的 正 交 表 数据 , 并 计算 各 个 因素 水 平 下 的 平均 
É (程序 名 :exam0713 .BR). 
> rate«-data.frame( 
A=g1(3,3), 
B=g1(3,1,9), 
C=factor(c(1,2,3,2,3,1,3,1,2)), 
Y-c(31, 54, 38, 53, 49, 42, 57, 62, 64) 
) 
K«-matrix(0, nrow-3, ncol-3, dimnames-list(1:3, c("A","B","C"))) 


> for (j in 1:3) 





V 
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w N e 


V NV M MM M 


> 


表 7.18: 转化 率 试验 的 正 交 表 





试验 号 反应 时 间 B | 催化 剂 含量 | 转化 率 


ren 
Ol 
c N rn 


N 


C32 ë = 


o o OD OO A C2 r2 
man 


(1) 
6 (2) 
7 (3) 
6 (2) 
7 (3) 
5 (1) 
7 (3) 
5 (1) 
6 (2) 


~N 


for (i in 1:3) 
K[i,j]<-mean(rate$Y [rate[j]==i]) 


K 
A B C 
41 47 45 
48 55 57 
61 48 48 
H A, B, € 三 列 的 值 Ki, Ko, Ks 作 图 ， 其 命令 如 下 : 
plot(as.vector(K), axes-F, xlab-"Level", ylab-"Rate") 
xmark«-c(NA, "A1", "A2" , "A3" , "B1" , "B2" , "B3" , "C1" , "C2" , "C3", NA) 
axis(1,0:10,1abels-xmark) 
axis(2,4*10:16) 
axis(3,0:10,1abels-xmark) 
axis(4,4*10:16) 


lines(K[,"A"]); lines(4:6, KL[,"B"]); lines(7:9,K[,"C"]) 


图 形 如 图 7.3 所 示 . 


从 图 7.3 可 以 看 出 : 


31 
54 
38 
53 
49 
42 
57 
62 
64 
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(1) 温度 越 高 其 转化 率 越 高 ， 以 90"C(As) 最 好 ， 还 应 探索 更 高 温度 的 情况 ; 


(2) 反应 时 间 以 120 分 钟 (Ba) 转化 率 最 高 ，; 
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图 7.3: 三 因素 与 指标 关系 数 


(3) 用 碱 量 以 6%(C2) 转化 率 最 高 . 

综合 起 来 ， 43B2C2 可 能 是 较 好 的 工艺 条 件 . 但 是 ， 我 们 发现 这 个 工艺 条 件 
并 不 在 九 次 试验 中 ,， 它 是 否 好 还 要 通过 实践 来 检验 . 因此 需要 对 于 A3B2C2 再 作 
一 次 试验 , 得 到 相应 的 转化 率 (0476), 并 与 最 好 的 试验 (第 9 号 试验 ，A3B3C2) XE 
行 比较 , 它 的 转化 率 为 64%, 所 以 可 以 说 明 选 出 的 工艺 是 比较 好 的 . 可 以 证 明 , 当 
因素 之 间 没 有 相互 作用 时 ， 用 这 种 方法 选 出 的 工艺 条 件 就 是 全 面试 验 中 最 好 的 . 





7.3.2 ” 正 交 试验 的 方差 分 析 


对 于 例 7.13 的 试验 ， 如 果 用 交叉 分 组 全面 试验 需 27 次 ,而 正 交 试验 只 用 了 
9 次 ， 自 然 要 问 ， 这 9 次 试验 是 否 能 大 体 上 反映 27 次 试验 的 结果 ?如 果 能 反映 
又 是 为 什么 ? 

首先 假定 三 个 因素 之 间 没 有 交互 作用 ， 9 次 试验 的 结果 以 wisyasc Yy R 
示 ， 根 据 一 般 线 性 模型 的 假定 ， 数 据 可 分 解 为 








yi = HUT bi 十 cl +£, 

















yo = /十 al 十 加 十 co 十 2) 
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Ua = pa d bs + c3 + E3, 
y4 = u+az+ bı +c + ed) 
Ys = H+a+ b+ C3 + Es, 
ye = ca» bt e + ee 
yr = u+a+ bı +c + E7, 
Ys = pasaba Fe es, 
Uo = pc 3 + bz +c t Eg, 





其 中 Y ges E ES ei ~ N(0,0?) (i— 1,2,--.,9), 且 相 互 独立 . 
i=1 ja k=1 
对 此 模型 考虑 如 下 三 种 假设 的 检验 问题 : 


Ho : Qj = @2 = aa = 0, 
Hos : bı = bə = bz = 0, 


Hos : cl = C9 = C3 = 0. 


者 Ho 成 立 ， 则 说 明 因 素 A 的 三 个 水 平 对 指标 y 的 影响 无 显著 差异 . 类 似 地 ， 
f Hoz( 或 Hos) 成 立 ， 则 表示 因素 B( 因 素 C) 的 三 个 水 平 对 指标 y 的 影响 无 显著 
差异 . 

类 似 于 单 因 素 和 双 因 素 方法 ， 对 于 正 交 试验 也 可 以 导出 相应 的 方差 分 析 表 
(具体 过 程 可 见 其 他 的 统计 书籍 ), 其 表格 形式 如 表 7.19 Bron. 


表 7.19: 正 交 试验 设计 的 方差 分 析 表 


方差 来 源 
因素 1 
因素 2 


因素 m 
误 差 
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在 表 7.19 中 ， n 为 试验 总 次 数 ， m 为 因素 个 数 ， a 为 每 个 因素 的 试验 水 
F, r 为 每 个 水 平 的 试验 次 数 ， 即 n = ra. P- 值 与 前 面 方差 分 析 表 中 的 意义 是 
相同 的 ， 即 当 p; < o, 则 认为 因素 i 有 显著 差异 . 
例 7.14 ( 续 例 7.13) 对 正 交 试验 进行 方差 分 析 . 

解 , 直接 用 R 软件 求解 
> rate.aov<-aov(Y“A+B+C, data=rate) 
> source("anova.tab.R"); anova.tab(rate.aov) 


Df Sum Sq Mean Sq F value PrF) 


人 2 618 309 34.3333 0.02830 * 

B 2 114 57 6.3333 0.13636 

C 2 234 117 13.0000 0.07143 . 

Residuals 2 18 9 

Total 8 984 

Signif. codes: 0 ’***’ 0.001 ^»? 0.01 °»? 0.05 ^. 0.1 ^^ 1 


从 计算 结果 可 以 看 到 ， 转 化 率 对 于 因素 A 很 显 若 ， 所 以 因素 A 水 平 的 选取 
很 重要 ， 转 化 率 对 因素 C 的 显著 ， 因 此 ， 因 素 C 水 平 的 选取 也 重要 ， 因 素 B 不 
显著 ， 所 以 为 了 节约 能 源 ， 可 以 选择 最 短 的 反映 时 间 ， 因 此 ， 工 艺 条 件 可 以 选择 
43DPIC2. 





7.3.3 ”有 交互 作用 的 试验 
在 作 双 因素 方差 分 析 时 ， 讲 到 因素 之 间 有 搭配 作用 ， 这 个 措 配 作用 被 称 为 交 
互 作用 .实际 上 ， 在 正 交 试验 设计 中 ， 也 可 以 分 析 因 素 之 间 交 互 作用 的 影响 . 
还 是 用 例子 说 明 问 题 
Bl 7.15 在 杭 棉 机 上 纺 粘 锦 混纺 纱 ， 为 了 提高 质量 ， 选 了 三 个 因素 ， 每 个 因素 两 
MRF. 如 表 7.20 RS 三 个 因素 间 可 能 有 交互 作用 .要 设计 一 个 试验 方案 . 
fü. 首先 设计 表 头 . 这 是 一 个 三 因素 两 水 平 的 试验 , 用 正 交 表 Ls(2") 比较 合 
适 ( 见 表 7.16). 对 于 7Zs(2 ) 还 有 一 个 各 列 间 的 交互 作用 表 ， 如 表 7.21 Bron. 
如 果 将 A 放 在 第 194, B 放 在 第 2 列 ， 查 表 7.21 的 第 “1 行 ， 第 “2” 列 ， 
对 应 的 数 是 3, 即 第 3 列 反映 了 A x B. 如 果 把 A 放 在 第 3 列 ，B 放 在 第 57, 
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表 7.20: 纺 粘 锦 混纺 纱 的 试验 因素 水 平 表 


Bo 水 F 
1 2 
金属 针 布 (A) 进口 的 国产 的 
产量 水 平 (B) 6 千克 10 千克 
4 MER (C) 238 转 /分 320 & / 分 





列 号 
"e 2 3 4 5 6 7 
1 3 2 5 4 7 6 
2 1 6 7 4 5 
3 7 6 5 4 
4 1 2 3 
5 2 3 
6 1 





ER 7.21 "3" 行 “5” 列 ， 对 应 的 数 是 6, BI A x B 在 第 6 列 . 这 样 一 个 表 对 于 如 
何 安排 试验 是 很 重要 的 . 
通过 分 析 ， 我 们 将 A 放 在 第 1 34, BER 2 列 ， 则 第 3 列表 示 4 x B, 
C 放 在 第 4 列 ， 则 第 5 列表 示 A x C, 第 6 列表 示 B x C, 第 7 列 是 空 列 ， 然 后 
再 将 8 次 试验 结果 棉 结 粒 数 放 在 第 8 列 上 ( 见 表 7.22). 
做 方差 分 析 . 用 数据 框 输入 数据 ， 用 aov() 函数 做 方差 分 析 ， 用 自 编 的 函数 
anova.tab() 列 出 方差 分 析 表 (程序 名 : exam0715 .BR). 
> cotton«-data.frame( 
Y=c(0.30，0.35，0.20，0.30，0.15，0.50，0.15，0.40) ， 
A-g1(2,4), B-g1(2,2,8), C-g1(2,1,8) 
) 
> cotton.aov«-aov(Y^A*B*C-A:BM-A:C4*B:C, data-cotton) 
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表 7.22: 纺 粘 锦 混纺 纱 试验 的 正 交 表 
» 9 
试验 号 


=. = N N OPNS ND |x [e 
w 


PERMET 


6 
_BxC 

1 

2 

2 

1 

1 

2 

2 

1 


1 
2 
2 
1 
2 
1 
1 
2 


1 
2 
1 
2 
2 
1 
2 
1 


oo n QQ C' 4 WW 





> source("anova.tab.R"); anova.tab(cotton.aov) 


Df Sum Sq Mean Sq F value Pr(>F) 


A 1 0.000313 0.000313 0.1111 0.7952 
B 1 0.007812 0.007812 2.7778 0.3440 
C 1 0.070313 0.070313 25.0000 0.1257 
A:B 1 0.000312 0.000312 20.1111 0.7952 
A:C 1 0.025313 0.025313 29.0000 0.2048 
B:C 1 0.000313 0.000313 0.1111 0.7952 
Residuals 1 0.002812 0.002812 

Total 7 0.107188 


从 计算 结果 可 以 看 出 ， 棉 结 粒 数 关 于 任何 因素 都 不 显著 . 

再 作 进 一 步 的 分 析 . 对 于 因素 A, 因素 A:B 和 因素 B:C, 它们 的 下 值 很 小 ， 
P 值 很 大 ， 因 此 ， 它 们 影响 棉 结 粒 数 更 不 显著 (也 就 是 说 ， 是 次 要 因素 ). 所 以 在 
分 析 模 型 中 ， 将 这 三 个 因素 去 掉 ， 


> cotton.new«-aov(Y^B*C*A:C, data-cotton) 








> anova.tab(cotton.new) 
Df Sum Sq Mean Sq F value PrF) 
B 1 0.007812 0.007812 26.8182 0.079605 . 
1 0.070313 0.070313 61.3636 0.004332 ** 
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C:A 2 0.025625 0.012812 11.1818 0.040678 * 

Residuals 3 0.003437 0.001146 

Total 7 0.107187 

Signif. codes: 0 ’***’ 0.001 "xx? 0.01 °»? 0.05 ”.”0.1 ”?”1 





从 结果 可 以 看 出 ， 最 显著 的 是 因素 C, 其 次 是 交互 效应 Ax C, 最 后 是 因素 B. 那 
么 我 们 选择 哪些 因素 作为 最 后 的 结果 呢 ? 还 需要 计算 各 个 因素 下 的 均值 . 为 方便 
起 见 ， 先 编写 一 个 函数 ， 将 各 因素 的 交互 情况 计算 出 来 . 
> ab<-function(x,y){ 

n<-length(x); z«-rep(0,n) 

for (i in 1:n) 

if (x[il--y[il)tz[i]«-1) else{z[i]<-2} 
factor(z) 
} 

> cotton$AC«-ab(cotton$A, cotton$C) 


再 计算 各 因素 的 均值 . 
> K«-matrix(0, nrow-2, ncol-4, 
dimnames-138t(1:2, c("A", "B", "C", "AC"))) 
> for (j in 2:5) 
for (i in 1:2) 
K[i,j-1]<-mean(cotton$Y[cotton[j]==i]) 


A B C AC 
1 0.2875 0.3250 0.2000 0.3500 
2 0.3000 0.2625 0.3875 0.2375 


因为 因素 C 最 显著 ， 所 以 先 选 择 因 素 C, 选 因素 C 用 第 1 个 水 平 (因为 棉 结 
粒 数 越 少 越 好 ), 因素 AxC 次 显著 ， 所 以 再 选择 因素 AC, 应 该 是 第 2 个 水 平 . 由 
于 因素 C 已 选择 第 1 个 水 平 ， 所 以 因素 A 只 能 选择 第 2 个 水 平 (注意 ， 这 与 直 
接 选 择 因素 A 是 矛盾 的 ， 这 是 因为 棉 结 粒 数 关 于 因素 AC 是 显著 的 ， 而 关于 因 
X A 是 不 显著 的 ， 所 以 要 从 因素 AC 来 考虑 问题 ) 最 后 ， 选 择 因素 B, 应 是 第 2 
个 水 平 ， 最 后 结果 为 A42B2C1. 即 较 好 的 生产 方案 选择 为 : 金属 针 布 是 国产 的 ; 








434 第 七 章 方差 分 析 
产量 是 10 千克 ; 锡 林 速 度 为 238 转 / 分 . 


7.3.4 有 重复 试验 的 方差 分 析 


类 似 前 面 的 分 析 ， 对 于 正 交 试验 设计 也 可 以 考虑 带 有 重复 试验 的 数据 . 这 里 
仅 用 一 个 例子 说 明 . 
例 7.16 在 研究 四 种 药物 对 淡色 库 蚁 的 杀 灭 作用 的 试验 中 , 每 种 药物 取 三 水 平 ， 
试验 安排 如 表 7.20 所 示 . 试 采取 Lo(34) 正 交 表 ， 在 不 考虑 交互 作用 ， 相 同 试 


表 7.23: 对 淡色 库 蚊 杀 灭 作用 试验 的 试验 因素 水 平 表 


A 水 平 

1 2 3 
A 296 4% 5% 
B 0% 1% 2% 
C 0% 1% 3% 
D 0% 1% 3% 





验 条 件 下 均 做 4 次 重复 试验 下 ， 检 验 四 种 药物 对 淡色 库 蚁 杀 灭 作用 有 无 差别 ， 
试 选择 较 好 灭 蚊 方 案 . 
解 : 用 Lo(3) 正 交 表 列 出 表 头 ， 并 将 试验 结果 填 在 表 后 的 各 列 . 
用 数据 框 输入 数据 ， 再 作 方 差分 析 . 然后 计算 各 因素 情况 下 对 淡色 库 蚊 的 
5076 击 倒 时 间 平 均值 . 
> mosquito<-data.frame( 
A-gl(3, 12), B-g1(3,4,36), 
C-factor(rep(c(1,2,3,2,3,1,3,1,2) , rep (4,9))), 
Defactor(rep(c(1,2,3,3,1,2,2,3,1) ; fep(4,9))); 
Y=c( 9.41, 7.19, 10.73, 3.73, 11.91, 11.85, 11.00, 11.72, 
10.67, 10.70, 10.91, 10.18, 3.87, 3.18, 3.80, 4.85, 
4.20, 5.72, 4.58, 3.71, 4.29, 3.89, 3.88, 4.71， 
7.62, 7.01, 6.83, 7.41, 7.79, 7.38, 7.56, 6.28, 
8.09, 8.17, 8.14, 7.49) 
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表 7.24: 四 种 对 淡色 库 蚊 的 5076 击 倒 时 间 的 正 交 试验 表 


试验 号 5096 击 倒 时 间 /s 
1 1 1 1 1 9.41 7.19 10.73 
2 1 2 2 2 | 11.91 dns» 11.00 
3 1 3 3 3 | 10.67 1070 1091 
4 2 1 2 3 | 387 3.18 3.80 
5 2 2 3 1| 420 5.72 4.58 
6 2 3 1 2| 42% 3.89 3.88 
7 3 1 3 2 7.62 7.01 6.83 
8 3 2 3 7.79 7.38 7.56 
9 3 3 2 1 8.09 8.17 8.14 





> mosquito.aov«-aov(Y^A*B*C*D, data=mosquito) 

> source("anova.tab.R"); anova.tab(mosquito.aov) 

Df Sum Sq Mean Sq F value Pr(>F) 
2 201.310 100.655 77.4884 6.504e-12 
2 15.920 7.960 6.1280 0.006393 
2 13.297 6.648 5.1182 0.013042 
2 5.021 2.510 1.9326 0.164282 

Residuals | 27 35.072 1.299 

Total 35 270.619 


J QA W e 


Signif. codes: 0O ’***’ 0.001 ’**’ 0.01 "x? 0.05 
> K«-matrix(0, nrow-3, ncol-4, 
dimnames-list(1:3, c("A", "B", "C", "D"))) 
» for (j in 1:4) 
for (i in 1:3) 
K[i,j]«-mean(mosquito$Y [mosquito[j]==i]) 


A B C D 
1 10.000000 6.302500 6.403333 6.763333 


kk 


xK 


2 


Dos. -? 


3.73 
11.72 
10.18 
4.85 
3.71 
4.71 
7.41 
6.28 
7.49 


^1 
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2 4.223333 7.808333 7.839167 7.676667 
3 7.480833 7.593333 7.461667 7.264167 


KRRIT ZR BA] CEPPE TRUE RS A 、 因 素 B 、 因 素 C 和 因素 D( 因 素 D 
不 显著 ). 从 计算 出 的 平均 时 间 (时 间 越 短 越 好 ), 可 以 看 出 ， 选 择 较 好 的 方案 是 : 


ABıCı Dı. 


习题 七 


7.1 三 个 工厂 生产 同一 种 零件 ， 现 从 各 厂 产品 中 分 别 抽取 4 件 产品 作 检 测 ， 其 
检测 强度 如 表 7.25 所 示 . 


表 7.25: 产品 检测 数据 


工厂 零件 强度 

T 115 116 98 83 
i 103 107 118 116 
丙 89 85 97 





(1) 对 数据 作 方 差分 析 , 判断 三 个 厂 生 产 的 产品 的 零件 强度 是 否 有 显著 差异 ; 
(2) 求 每 个 工厂 生产 产品 零件 强度 的 均值 ， 作 出 相应 的 区 闻 估 计 (a = 0.05); 
(3) 对 数据 作 多 重 检 验 . 
7.2 有 四 种 产品 Ai,1i 一 1,2,3 分 别 为 国内 甲 、 忆 、 丙 三 个 工厂 生产 的 产品 ， 
A, 国外 同类 产品 ,， 现 从 各 厂 分 别 取 10, 6, 6 和 2 个 产品 做 300 小 时 连续 磨损 老 
化 试验 ， 得 变化 率 如 表 7.26 所 示 . 假定 各 厂 产 品 试验 变化 率 服 从 等 方差 的 正 态 


表 7.26: 磨损 老化 试验 数据 


产品 xou 
A 18 19 17 15 16 13 18 22 I7 
A» 19 26 28 23 25 
Aa 25 18 22 27 24 
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分 布 . 
(1) 试问 四 个 厂 生产 的 产品 的 变化 率 是 否 有 显著 差异 ? 

(2) 着 有 差异 ,请 做 进一步 的 检验 .i 国内 产品 与 国外 产品 有 无 显著 差异 ? 
ii) 国内 各 厂家 的 产品 有 无 显著 差异 ? 

7.8 某 单 位 在 大 白鼠 营养 试验 中 ,随机 将 大 白鼠 分 为 三 组 ， 测 得 每 组 12 只 大 和 白 
EUR P E a) EB X X(mg/6 d), 数据 由 表 7.27 所 示 .， 试 对 该 资料 作 正 态 性 检 


表 7.27: 白鼠 尿 中 氨氮 检测 数据 
0v 52 


45 53 44 51 53 54 37 47 57 48 42 
66 66 86 56 52 76 83 72 73 59 53 





验 和 方差 齐 性 检验 . 

7.4 以 小 白鼠 为 对 象 研 究 正 常 肝 核糖 核酸 (RNA) 对 冶 细 胞 的 生物 作用 ,试验 分 
别 为 对 照 组 (生理 盐水 ) 、 水 层 RNA 组 和 酚 层 RNA 组 ， 分 别 用 此 三 种 不 同 处 理 
75 SIT JR £2 I, 6 R38 — BEER S88. (FDP 酶 ) 活力 ， 数 据 如 表 7.28 所 示 .， 问 三 种 


表 7.28: 三 种 不 同 处 理 的 诱导 结果 
5 导 结 果 
2.19 2.69 311 347 177 244 2.83 2.52 


处 理 方法 
对 照 组 
KÆ RNA 组 
酚 层 RNA 组 


3.83 3.15 4.70 3.97 2.03 2.87 3.65 5.09 
5.41 3.47 4.02 4.07 2.18 3.13 3.77 4.26 





T. B] Ab S2 85 75 S TE FR] A 48 P1? 

7.5 JJ EL, AULA TERRA STO ACFPRASSSUSEDAAROÀR ER, SER] 8 个 受 
试 者 ， 在 催眠 状态 下 ， 要 求 每 人 按 任 意 次 序 做 出 恐惧 、 恰 快 、 忧 虑 和 平静 4 种 反 
RS € 7.29 给 出 了 各 受 试 者 在 处 于 这 4 种 情绪 状态 下 皮肤 的 电位 变化 值 ， 试 
在 a 二 0.05 T, 检验 受 试 者 在 催眠 状态 下 对 这 4 种 情绪 的 反应 力 是 否 有 显著 差 
异 . 
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表 7.29: A 种 情绪 状态 下 皮肤 的 电位 变化 值 (Hir. mV) 





受 A 者 
情绪 状态 
1 2 3 4 5 6 T 8 
AR 23.1 57.6 10.5 23.6 11.9 54.6 21.0 20.3 
愉快 22.7 532 9.7 19.6 13.8 47.1 13.6 23.6 
忧虑 22.5 53.1 10.8 21.1 13.7 39.2 13.7 16.3 
平静 22.0 53.1 8.3 21.6 139.3 37.0 14.8 14.8 


7.6 为 了 提高 化 工厂 的 产品 质量 ， 需 要 寻求 最 优 反应 温度 与 反应 压力 的 配合 ， 
为 此 选择 如 下 水 平 

A: 反应 温度 ( 吧 ) 60 70 80 

B: 反应 压力 (AF) 2 25 3 
在 每 个 4; Bi 条件 下 做 两 次 试验 ， 其 产量 如 表 7.30 所 示 . 


表 7.30: 试验 数据 


As 
Bi 6.8 6.4 
B» 4.0 3.8 
Bs 6.5 7.0 





(1) 对 数据 作 方差 分 析 ( 应 考 上 处 交互 作用 ); 

(2) 求 最 优 条 件 下 平均 产量 的 点 估计 和 区 间 估 计 ; 

(3) 对 AiB; 条 件 下 平均 产量 作 多 重 比较 。 
7.7 某 良 种 繁殖 场 为 了 提高 水 稻 产 量 ， 制 定 试验 的 因素 如 表 7.31 所 示 ， 试 选择 
Lo(34) 正 交 表 安排 试验 ， 假 定 相应 的 产量 为 (单位 ， kg/100m?) 

62.925 57.075 51.6 55.05 58.05 56.55 63.225 50.7 54.45 

试 对 试验 结果 进行 方差 分 析 ， 并 给 出 一 组 较 好 的 种 殖 条 件 . 
7.8 菜单 位 研究 四 种 因素 对 钉螺 产 卵 数 (Y) 的 影响 ， 制 定 试验 的 因素 如 表 7.32 
所 示 . 试 选择 Le(27) 正 交 表 安 排 试验 ,假定 相应 的 钉螺 产 卵 数 为 (单位 个) 
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表 7.31: 水 稻 的 试验 因素 水 平 表 
x 





品种 ZAA 8 号 & 455 珍珠 矮 11 号 
密度 4.50 棵 /100m? | 3.75 3& /100m? | 3.003€ /100m2 
施肥 量 0.75 kg/100m? | 0.375 kg/100m? | 1.125 kg/100m? 


86 95 91 94 91 96 83 88 
试 对 试验 结果 进行 方差 分 析 ， 并 给 出 一 组 较 好 灭 螺 方案 (考虑 有 交互 作用 ). 


表 7.32: 钉螺 产 卵 影响 试验 因素 的 水 平 表 





* z t 
1 2 
温度 (A) 5°C 10°C 
DAE (B) 0.5 5.0 
Ax (C) 1096 30% 
pH 值 (D) 6.0 8.0 


7.9 某 工 厂 为 了 提高 零件 内 孔 研磨 工序 质量 进行 工艺 的 参数 选 优 试验 ， 考 察 孔 
的 锥 度 值 ， 希望 其 越 小 越 好 . 在 试验 中 考察 因子 的 水 平 表 7.35. 试 选择 Ls(2') E 


表 7.33: 因子 水 平 表 


M 水 "p 
1 2 
研 孔 工艺 设备 (A) 通用 夹具 专用 夹具 
生铁 研 圈 材质 (已 ) 特殊 铸铁 一 般 灰 铸铁 
留 研 量 (mm) (C) 0.01 0.015 





交 表 安排 试验 ， 其 表 头 设计 如 表 7.34 所 示 .， 在 每 一 条 件 下 加 工 了 四 个 零件 ， 测 
量 其 难度， 试验 结果 如 表 735 p. 试 对 试验 结果 进行 方差 分 析 ， 并 给 出 一 组 
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表 头 设计 


列 号 


试验 号 


Oo nN CO» Aa A C N 


较 好 工艺 参数 指标 . 








1.5 
1.0 
2.5 
2.5 
1.5 
1.0 
1.8 
1.9 
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表 7.34: 试验 结果 


B C 

2 3 4 5 

表 7.35: 试验 结果 

A 验 dh 

1.7 1.3 
1.2 1.0 
2.2 3.2 
2.5 1.5 
1.8 1.7 
2.5 1.3 
1.5 1.8 
2.6 2.3 


1.5 
1.0 
2.0 
2.8 
1.5 
1.5 
2.2 
2.0 


第 八 章 ”应 用 多 元 分 析 (1) 


多 元 分 析 (multivariate analysis) 是 多 变量 的 统计 分 析 方 法 ， 是 数理 统计 中 
应 用 广泛 的 一 个 重要 分 支 , 包含 了 丰富 的 理论 成 果 与 众多 的 应 用 方法 ， 它 主要 包 
括 回归 分 析 、 方 差分 析 、 判 别 分 析 、 唆 类 分 析 、 主 成 分 分 析 、 因 子 分 析 和 典型 相 
关 分 析 等 . 

有 关 回 归 分 析 和 方差 分 析 的 内 容 已 在 第 六 章 、 第 七 章 作 了 介绍 ， 本 章 介绍 判 
别 分 析 与 聚 类 分 析 的 内 容 . 这 两 部 分 内 容 有 一 个 共同 点 ， 就 是 对 样本 进行 分 类 . 
但 两 者 也 有 所 不 同 ， 判 别 分 析 是 在 已 知 有 多 少 类 , 并且 在 有 训练 样本 的 前 题 下 ， 
利用 训练 样本 得 到 判别 函数 ， 对 得 测 样本 进行 分 类 . 而 聚 类 分 析 是 预先 不 知道 有 
多 少 类 的 情况 下 ， 根 据 某 种 规则 将 样本 (或 指标 ) 进行 分 类 . 

本 章 人 简单 介绍 判别 分 析 和 聚 类 分 析 的 基本 原理 与 方法 ,着重 介绍 如 何 应 用 及 
软件 对 数据 作 判 别 分 析 和 聚 类 分 析 . 

在 下 章 介绍 多 元 分 析 的 另 一 部 分 内 容 一 主 成 分 分 析 、 因 子 分 析 和 典型 相关 
分 析 . 











8.1 判别 分 析 


判别 分 析 是 用 以 判别 个 体 所 属 群 体 的 一 种 统计 方法 , 它 产 生 于 20 世纪 30 年 
代 ， 近 年 来 ， 在 许多 现代 自然 科学 的 各 个 分 文 和 技术 部 门 中 ， 得 到 广泛 的 应 用 . 

例如 ,利用 计算 机 对 一 个 人 是 否 有 心脏 病 进 行 诊断 时 ,可 以 取 一 批 没有 心脏 
病 的 人 , WE p 个 指标 的 数据 ,然后 再 取 一 批 已 知 患 有 心 胜 病 的 人 ,同样 也 测 得 
p 个 相同 指标 的 数据 ， 利 用 这 些 数据 建立 一 个 判别 函数 ， 并 求 出 相应 的 临界 值 ， 
这 时 对 于 需要 进行 诊断 的 人 , 也 同样 测 其 p 个 指标 的 数据 ,将 其 代入 判别 阴 数 ， 
求 得 判别 得 分 ， 再 依 判别 临界 值 ， 即 可 以 判断 此 人 是 属于 有 心脏 病 的 那 一 群体 ， 
还 是 属于 没有 心脏 病 的 那 一 群体 ,又 如 在 考古 学 中 ,对 化 石 及 文物 年 代 的 判断 ; 
在 地 质 学 中 ， 判 断 是 有 矿 还 是 无 矿 ; 在 质量 管理 中 ， 判 断 某 种 产品 是 合格 品 ， 还 
是 不 合格 品 ; 在 植物 学 中 ， 对 于 新 发 现 的 一 种 植物 ， 判 断 其 属于 那 一 科 , 总 之 判 
别 分 析 方 法 在 很 多 学 科 中 有 着 广泛 的 应 用 . 

判别 方法 有 多 种 ， 这 里 主要 介绍 的 是 最 常用 的 判别 方法 ,而 且 是 两 类 群体 的 
判别 方法 . 
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8.1.1 ”距离 判别 

PRAAN, 就 是 将 p 维 Euclid 空间 R? 划分 成 两 个 互 不 相交 的 区 域 Fa, 
Rə, UU Rk, 即 N Rj =Í, U Rj = RP. 当 ZE Ri, i= ,270 就 判定 x 属于 

j=1 j=1 

总 体 Xi i 二 1,2,…,. 特别 ， 当 二 2 时 ， 就 是 两 个 总 体 的 判别 问题 . 

距离 判别 是 最 简单 、 直 观 的 一 种 判别 方法 ,该 方法 适用 于 连续 型 随机 变量 的 
判别 类 ， 对 变量 的 概率 分 布 没有 限制 . 

1. Mahalanobis 距离 的 概念 

通常 我 们 定义 的 距离 是 Euclid 距离 (简称 欧 氏 距离 ). Æ x, y 是 OR? 中 的 两 
个 点 ， 则 x 与 y 的 距离 为 


d(x,y) = lx — vlla = v (x — v)! (x — y). 





但 在 统计 分 析 与 计算 中 ，Euclid 距离 就 不 适用 了 , 看 一 下 下 面 的 例子 ( 见 图 8.1). 























u A p 


图 8.1: 不 同方 差 的 正 态 分 布 表 


为 简单 起 见 ， 考 虑 p = 1 的 情况 . 设 和 ~ N(0,1), Y ~ N(4,2?), 绘 出 相应 
的 概率 密度 曲线 ,如 图 8.1 所 示 . 考虑 图 中 的 4 点 ，4 点 距 X 的 均值 Wi = 0 较 
ir, EE Y 的 均值 uo = 4 较 远 .但 从 概率 角度 来 分 析 问 题 ， 情 况 并 非 如 此 . 经 计 
JE, A m cz 值 为 1.66, 也 就 是 说 ，4 AE py = 0 Æ 1.6601, M A AE p = 4 


8.1 判别 分 析 443 


却 只 有 1.1702, 因此 ， 从 概率 分 布 的 角度 来 讲 ， 应 该 认为 4 点 距 uo 更 近 一 点 . 
所 以 ， 在 定义 距离 时 ， 要 考虑 随机 变量 方差 的 信息 . 
定义 8.1 dE X,Y 是 从 均值 为 u, 协 方差 阵 为 X 的 总 体 X 中 机 取 的 样本 ， 则 总 体 
X 内 两 点 与 Y Mahalanobis 距离 (简称 马 氏 距离 ) 定义 为 

d(x,y) = V(z—Yy) Yr — y). (8.1) 
定义 样本 7Z 5 %4 X Mahalanobis 距离 为 


d(x, X) = y (x — n) X (z — y). (8.2) 


2. 判别 准则 与 判别 函数 

在 这 里 , 讨论 两 个 总 体 的 距离 判别 , 分 别 讨论 两 总 体 协 方差 阵 相同 和 协 方差 
阵 不 同 的 情况 . 

设 总 体 Xi 和 Xo 的 均值 问 量 分 别 为 y 和 u, 协 方差 阵 分 别 为 2; 和 Yo, 今 
给 一 个 样本 z, 要 判断 x 来 自 哪 一 个 总 体 . 

首先 考虑 两 个 总 体 Xi 和 XS 的 协 方差 相同 的 情况 ， 即 


Wu ÉH,  MiceXOex. 


要 判断 c 是 属于 哪 一 个 总 体 ， 需 要 计算 x 到 总 体 X 和 Xa 的 Mahalanobis 距离 
的 平方 d(x, X1) 和 d(x, Xa), 然后 进行 比较 ， 若 d(x, X3) € d(x, Xa), 则 判定 
x 属于 Xu 否则 判定 xz 来 自 X. 由 此 得 到 如 下 判别 准则 : 


Ri= {zx | P(x, Xj) < dz, X)), Ro = {z | dz, Xi) > (z, X2)}. (8.3) 











现在 引进 判别 函数 的 表达 式 ， 考 虑 d^ (v, X1) 与 P(x, X2) 之 间 的 关系 ， 有 
d'(r,X3) - d'(z, X) — (z— ua) X (s — uz) — (x — A (& — in) 
= (2E g — 287E pus HD ug) 
— (zxTX^!z — 221 X7! + u Ep) 
= 2x'X-(u— ua) + (ui + ua)! 31 (u2 — m) 
- a(s- 835 aga- m) 


- 2(r-g)'E- (n — us), (8.4) 
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其 中 五 = 07 是 两 个 总 体 的 平均 值 ， 
4 
w(z) = (z = X) E^ (a — uo), (8.5) 
w(a) 为 两 总 体 距 离 的 判别 函数 ， 因 此 判别 准则 (8.3) 变 为 
Ri = {x| w(2) 20}, R= {z | w(æ) < 0}. (8.6) 


在 实际 计算 中 ,总 体 的 均值 与 协 方差 阵 是 未 知 的 , 因此 总 体 的 均值 与 协 方差 
阵 需 要 用 样本 均值 与 协 方差 阵 来 代替 . 设 aD D. e 是 来 自 总 体 Xi 的 mm 
个 样本 ， sP, P,a D 是 来 自 总 体 Xo 的 na 个 样本 ， 由 则 样本 的 均值 与 协 方 
差 阵 为 

















- lx 
ilex Sca Nes (8.7) 
Tl jl 
1 2 ni 
S 一 (0) WO G) _ 7 
: mnc PAD (z; z0) (aj ) 
i=1 j=1 
1 
m cau e (8.8) 
其 中 
2 . | T 
S; zO rO) (z9 50) , i212. (8.9) 
Ene) (nm) 
对 于 竺 测 样本 v. 其 判别 函数 定义 为 
Wr) = (x —z) $1 (a0 — x9), (8.10) 
其 中 MS 
2 qz 0) 十 rD 
T= J ; 
其 判别 准则 为 
Ri= {zrz|wr)>0}, R= {x | (x) < 0}. (8.11) 


再 考虑 两 个 总 体 X X. 协 方差 阵 不 同 的 情况 ， 即 


paga Mi. 
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对 于 样本 r, 在 协 方差 阵 不 同 的 情况 下 ， 判 别 函 数 为 
w(z) = (x — ua)! Ya! (z — uz) — (x — m) Di (t — p). (8.12) 


与 前 面 讨论 的 情况 相同 , 在 实际 计算 中 总 体 的 均值 与 协 方差 阵 是 未 知 的 ， 同 
样 需要 用 样本 的 均值 与 样本 协 方 差 阵 来 代 蔡 因此， 对 于 竺 测 样本 x, 判别 函数 
定义 为 











D(z) = (x — 19) Sz (s 一 2 回 ) 一 人 一 z9)72l(z 一 z0)， (8.13) 
其 中 
0 
S = HË- (e-m) 
1 , 
= mcI i= 1,2. (8.14) 
其 判别 准则 仍 为 式 (8.11). 
3. R 程序 


将 前 面 介绍 的 算法 编写 成 R 程序 (程序 名 :  discriminiant.distance.R). 
discriminiant.distance «- function 

(TrnX1, TrnX2, TstX = NULL, var.equal = FALSE){ 

if (is.null(TstX) == TRUE) TstX <- rbind(TrnXi1,TrnX2) 

if (is.vector(TstX) == TRUE) TstX <- t(as.matrix(TstX)) 

else if (is.matrix(TstX) !- TRUE) 

TstX <- as.matrix(TstX) 
if (is.matrix(TrnX1) !- TRUE) TrnX1 <- as.matrix(TrnX1) 
if (is.matrix(TrnX2) !- TRUE) TrnX2 <- as.matrix(TrnX2) 


nx <- nrow(TstX) 

blong <- matrix(rep(0, nx), nrow-1, byrow-TRUE, 
dimnames-list("blong", 1:nx)) 

mul <- colMeans(TrnX1); mu2 «- colMeans(TrnX2) 


if (var.equal == TRUE || var.equal == T){ 
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S «- var(rbind(TrnX1,TrnX2)) 
w <- mahalanobis(TstX, mu2, S) 
- mahalanobis(TstX, mui, S) 


A 
elsei 
S1 < -var(TrnX1); S2 <- var(TrnX2) 
w «- mahalanobis(TstX, mu2, S2) 
- mahalanobis(TstX, mui, S1) 
} 


for (i in 1:nx){ 
if (w[i] > 0) 
blong[i] <- 1 
else 
blong[i] «- 2 
} 
blong 
} 


在 程序 中 ， 输 入 变量 TrnX1, TrnX2 表示 X, 26. Xs 类 训练 样本 ， 其 输入 格式 
是 数据 框 ， 或 矩阵 (样本 按 行 输入 ), 输入 变量 TstX 是 待 测 样本 ， 其 输入 格式 是 
数据 框 ， 或 矩阵 (样本 按 行 输入 ),， 或 向 量 (一 个 待 测 样本 )， 如 果 不 输入 TstX( 缺 
省 值 ), 则 待 测 样本 为 两 个 训练 样本 之 和 ， 即 计算 训练 样本 的 回 代 情况 . 输入 变量 
var .equal 是 逻辑 变量 ， var .equal=TRUE 表示 两 个 总 体 的 协 方差 阵 相 同 ， 否则 
(RAE) 为 不 同 . 函数 的 输出 是 由 “1” 和 “2” 构 成 的 的 一 维和 矩阵 ，“1” 表 示 待 
测 样 本 属于 Xi 类 ，“2” 表 示 待 测 样本 属于 X» X. 

在 上 述 程序 中 ， 用 到 Mahalanobis 距离 函数 mahalanobis O, 该 函数 的 使 用 
格式 为 

mahalanobis(x, center, cov, inverted-FALSE, ...) 

其 中 x dé BUREAU ALS I8] S ORE. (p 28), center 为 样本 中 心 ， cov 为 样 
本 的 协 方 差 阵 ， 其 公式 为 


D? — (z — u)! X! (z — p). 


4. 判别 实例 
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fj 8.1 在 研究 砂 基 液化 问题 中 , 选 了 七 个 因子 . 今 从 已 液化 和 未 液化 的 地 层 中 分 
liT 12 个 和 28 个 样本 ， 数 据 列 在 表 8.1 中 ， 其 中 了 类 表示 已 液化 类 ， 
表示 未 液化 类 ， 试 建立 距离 判别 的 判别 准则 ， 并 按 判 别 准则 对 原 35 个 样本 进行 
回报 ( 即 按 判 别 准则 进行 分 类 )， 分 析 误 判 情况 . 


I 
I 
I 
I 
I 
I 
I 
I 
I 
I 


和 
jj 


表 8.1: 原始 分 类 数据 





180 
45 
75 
75 
75 
15 
30 
30 
30 
70 
70 
30 


I% 
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表 8.1( 续 ): 原始 分 类 数据 


编号 or 
23 30 
24 30 
25 18 
26 75 
27 75 
28 40 
29 40 
30 180 
31 180 
32 180 
33 180 
34 45 
35 45 





解 : AROGE, HAAZ discriminiant.distanceO 进行 判别 ， 分 别 考 虑 
两 总 体 协 方差 阵 相 同和 协 方差 阵 不 同 的 情况 . 


> classX1<-data.frame( 

xl=c(6.60， 6.60, 6.10, 6.10, 8.40, 7.2, 8.40, 7.50, 
7.50, 8.30, 7.80, 7.80), 

x2=c(39.00,39.00, 47.00, 47.00, 32.00, 6.0, 113.00, 52.00, 
52.00,113.00,172.00,172.00), 

x3=c(1.00, 1.00, 1.00, 1.00, 2.00, 1.0, 3.50, 1.00, 
3.50, 0.00, 1.00, 1.50), 

x4=c(6.00, 6.00, 6.00, 6.00, 7.50, 7.0, 6.00, 6.00, 
7.50, 7.50, 3.50, 3.00), 

x5=c(6.00, 12.00, 6.00, 12.00, 19.00, 28.0, 18.00, 12.00, 
6.00, 35.00, 14.00, 15.00), 

x6=c(0.12, 0.12, 0.08, 0.08, 0.35, 0.3, 0.15, 0.16, 
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0.16, 0.12, 0.21, 0.21), 
x7=c(20.00,20.00, 12.00, 12.00, 75.00, 30.0, 75.00, 40.00, 
40.00,180.00, 45.00, 45.00) 
) 


> classX2«-data.frame( 


xl=c(8.40， 8.40, 8.40, 6.3, 7.00, 7.00, 7.00, 8.30, 
8.30, 7.2, 7.2, 7.2, 5.50, 8.40, 8.40, 7.50, 
7.50, 8.30, 8.30, 8.30, 8.30, 7.80, 7.80), 

x2=c(32.0 ,32.00, 32.00, 11.0, 8.00, 8.00, 8.00,161.00, 

161.0, 6.0, 6.0, 6.0, 6.00,113.00,113.00, 52.00, 


52.00, 97.00, 97.00,89.00,56.00,172.00,283.00), 


x3=c(1.00, 2.00, 2.50, 4.5, 4.50, 6.00, 1.50, 1.50, 
0.50, 3.5, 1.0, 1.0, 2.50, 3.50, 3.50, 1.00， 
1.00, 0.00, 2.50, 0.00, 1.50, 1.00, 1.00), 

x4=c(5.00, 9.00, 4.00, 7.5, 4.50, 7.50, 6.00, 4.00, 
2.50, 4.0, 3.0, 6.0, 3.00, 4.50, 4.50, 6.00, 
7.50, 6.00, 6.00, 6.00, 6.00, 3.50, 4.50), 

x5=c(4.00, 10.00, 10.00, 3.0, 9.00, 4.00, 1.00, 4.00, 
1.00, 12.0, 3.0, 5.0, 7.00, 6.00, 8.00, 6.00, 
8.00, 5.00, 5.00,10.00,13.00, 6.00, 6.00), 

x6=c (0.35, 0.35, 0.35, 0.2, 0.25, 0.25, 0.25, 0.08, 
0.08, 0.30, 0.3, 0.3, 0.18, 0.15, 0.15, 0.16, 
0.16, 0.15, 0.15, 0.16, 0.25, 0.21, 0.18), 


x7=c(75.00,75.00, 75.00, 15.0,30.00, 30.00, 30.00, 70.00, 
70.00, 30.0, 30.0, 30.0,18.00, 75.00, 75.00, 40.00, 
40.00,180.00,180.00,180.00,180.00,45.00,45.00) 

) 
> source("discriminiant.distance.R") 
> discriminiant.distance(classX1, classX2, var.equal-TRUE) 
123456789 10 11 12 13 14 15 16 17 18 19 20 21 22 23 
blog 111111112 1 1 1 2 2 2 2 2 2 2 22 2 2 
24 25 26 27 28 29 30 31 32 33 34 35 
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blog 2 22 2 1 1 2 2 2 2 22 
> discriminiant.distance(classX1, classX2) 
123456789 10 11 12 13 14 15 16 17 18 19 20 21 22 23 
blog 111111112 1 1 1 2 2 2 2 2 2 22 2 2 2 
24 25 26 27 28 29 30 31 32 33 34 35 
blong 2 2 2 2 2 2 2 2 2 2 2 2 
在 认为 两 总 体 协 方差 阵 相 同 的 情况 下 ,将 训练 样本 回 代 进 行 判 别 ， 有 三 个 点 
判 错 ， 分 别 是 第 9 号 样本 、 第 28 号 样本 和 第 29 号 样本 . 
在 认为 两 总 体 协 方差 阵 不 同 的 情况 下 ,将 训练 样本 回 代 进 行 判 别 ， 只 有 一 个 
点 判 错 ， 是 第 9 号 样本 . 
5. 多 分 类 问题 的 距离 判别 
对 于 距离 判别 ,很 容易 将 两 分 类 判别 方法 推广 到 多 分 类 问题 . 事实 上 ， 距 离 
判别 的 本 质 就 是 计算 Mahalanobis 距离 ， 待 测 样 本 路 哪个 总 体 的 距离 近 ， 就 认为 
它 属于 哪 一 类 . 
假设 样本 共用 类 ， 分别 是 Xi, X2， Xr 若 认 为 这 大 类 总 体 的 方差 是 相 
同 的 ， 即 





X eeu uS 

则 用 全 部 样本 计算 样本 方差 X 作为 总 体 方差 Y 的 估计 值 . 车 认为 类 总 体 的 方 

差 不 相 同 ， 则 用 各 自 的 样本 计算 样本 方差 9. 作为 总 体 方差 Y. 的 估计 值 . 
相应 的 判别 准则 为 








R; = (x | d(x, Xi) = min d(e, X;)}, OTN 


其 中 d(x, X5) 是 由 式 (8.2) 定义 样本 x 与 总 体 X; 的 Mahalanobis ES. #4 
方差 相同 时 ， 式 (8.2) 中 的 X 由 估计 值 5 代替 ， 若 认为 方差 不 同时 ， 式 (8.2) 中 
的 D 由 估计 值 5; RE. 

用 上 述 方法 编写 成 R 程序 (程序 名 : distinguish.distance.R). 
distinguish.distance <- function 

(TrnX, TrnG, TstX = NULL, var.equal = FALSE)(Í 

if ( is.factor(TrnG) == FALSE){ 








mx <- nrow(TrnX); mg <- nrow(TrnG) 
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TrnX «- rbind(TrnX, TrnG) 
TrnG <- factor(rep(1:2, c(mx, mg))) 
} 
if (is.null(TstX) == TRUE) TstX <- TrnX 
if (is.vector(TstX) -- TRUE) TstX «- t(as.matrix(TstX)) 
else if (is.matrix(TstX) !- TRUE) 
TstX «- as.matrix(TstX) 
if (is.matrix(TrnX) !- TRUE) TrnX <- as.matrix(TrnX) 


nx <- nrow(TstX) 
blong <- matrix(rep(0, nx), nrow-1, 
dimnames-list("blong", 1:nx)) 

g <- length(levels(TrnG)) 
mu <- matrix(0, nrow-g, ncol-ncol(TrnX)) 
for (i in 1:g) 

mu[i,] <- colMeans(TrnX[TrnG--i,]) 
D < -matrix(0, nrow-g, ncol-nx) 
if (var.equal == TRUE || var.equal == T) 

for (i in 1:g) 

D[i,] «- mahalanobis(TstX, mu[i,], var(TrnX)) 

} 
else{ 

for (i in 1:g) 

D[i,] <- mahalanobis(TstX, mul[i,], var(TrnX[TrnG--i,])) 

} 
for (j in 1:nx){ 

dmin <- Inf 

for (i in 1:g) 

if (D[i,j] < dmin){ 
dmin <- D[i,j]; blong[j] <- i 
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blong 
} 


程序 分 别 考 虑 了 总 体 协 方差 阵 相 同和 总 体 协 方差 阵 不 同 的 两 种 情况 . 输入 变量 
TrnX 表示 训练 样本 ， 其 输入 格式 是 官 阵 (样本 按 行 输入 ), 或 数据 框 . TrnG 是 因 
子 变量 , 表示 输入 训练 样本 的 分 类 情况 .输入 变量 TstX 是 待 测 样本 , 其 输入 格式 是 
JERE (样本 按 行 输入 ), 或 数据 框 , 或 向 量 (一 个 待 测 样本 ). 如 果 不 输入 TstX( 缺 省 
值 ), 则 待 测 样本 为 训练 样本 . 输入 变量 var .equal 是 逻辑 变量 ，var .equal=TRUE 
表示 计算 时 认为 总 体 协 方差 阵 是 相同 的 ;否则 ( 缺 省 值 ) 是 不 同 的 ， 函 数 的 输出 
是 由 数字 构成 的 的 一 维和 矩阵 ， 数 字 表 示 相 应 的 类 . 为 了 与 前 一 个 程序 兼容 ， 对 于 
二 分 类 问题 ， 也 可 以 按照 discriminiant.distance 函数 的 输入 格式 输入 . 
f| 8.2 Fisher Iris 数据 Iris 数据 有 四 个 属性 ， 苯 片 的 长 度 、 葛 片 的 宽度 、 花 
办 长 度 和 和 花 闪 的 宽度 ， 数据 共 150 个 样本 ， 分 为 三 类 ， 前 50 个 数据 是 第 一 类 
— Setosa, 中 间 的 50 个 数据 是 第 二 类 一 Versicolor, 最 后 50 个 数据 是 第 三 类 一 
Virginica. 试用 距离 判别 对 Iris 数据 进行 判别 分 析 . 

f. R 软件 中 提供 了 Iris 数据 ， 数 据 的 前 四 列 是 数据 的 四 个 属性 ， 第 五 列 标 
明 数 据 属于 哪 一 类 . 
X«-iris[,1:4] 
G«-g1(3,50) 


source("distinguish.distance.R") 





V VvV V M 


distinguish.distance(X,G) 
1234567289 10 11 12 13 14 15 16 17 18 19 20 21 22 23 
blong 111111111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 
24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 
blog 1 1 1 1 1 1 1d 1 1 1 1 1 1 1 1 1 1 1 1 1 
44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 
blog 1 1 1 11 1 1 2 2 2 2 2 2 2 2 2 2 2 22 
64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 
blong 2 2 2 2 2 2 2 3 2 3 2 2 2 2 2 2 2 2 2 2 
84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 
blog 3 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 3 3 
103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 
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blonag 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 
118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 

blonag 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 
133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 

blong 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 
148 149 150 

blong 3 3 3 


从 计算 结果 可 以 看 出 ， 只 有 第 71 号 样本 、 第 73 号 样本 和 第 84 号 样本 错 
判 ， 回 代 的 判别 正确 率 为 147/150 = 9876. 


8.1.2 Bayes 判别 

Bayes 判别 是 假定 对 研究 对 象 已 上 有 一 定 的 认识 ,这 种 认识 常用 先 验 概率 来 描 
述 ， 当 取得 样本 后 ， 就 可 以 用 样本 来 修正 已 有 的 先 验 概率 分 布 ,得 出 后 验 概率 分 
布 ， 现 通过 后 验 概率 分 布 进行 各 种 统计 推断 . 

1. 误 判 概率 与 误 判 损失 

考虑 两 个 总 体 的 判别 情况 . 设 Xi 与 Xo 分 别 具 有 概率 密度 函数 fil) 与 
f(z), 其 中 xz Æ p 维 向 量 . 记 Q 为 x 的 所 有 可 能 观测 值 的 全 体 , 称 为 样本 空间 . 


Ri 为 根据 某 种 规则 要 判 为 Xi 的 那些 T 的 全 体 ， m Rə =Q- Rı ERFA X» 
那些 x 的 全 体 . 某 样本 实际 来 自 Xi, 但 被 判 为 X 的 概率 为 





P(21) = P(z € RalXi} = l. fida: (8.15) 


来 自 Xs, 但 被 判 为 Xi 的 概率 


P(1]2) = P(x € RFi| X5) = a f»(x)dz. (8.16) 


类 似 地 ， 来 自 Xi 也 被 判 为 Xi, 来 自 X2 也 被 判 为 X» 的 概率 


PULL Pis e mp - f fi(x)dx, (8.17) 


P(2|2) = Pis e nix) = f fo(x)dx, (8.18) 
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又 设 pi pa 分 别 表示 总 体 Xi 和 Xo 的 先 验 概率 ， 且 pl + pa = 1, 于 是 
P{ 正 确 地 判 为 XI} = PDEB X, 被 判 为 Xi} 
= PizeR|Xj-P(X) -P(i1).p (819) 
PP{ 误 判 到 Xi1} = PDEH Xo, 被 判 为 X1) 
= P{x € Rı|X2} - P(X2) = P(1|2)- pə. (8.20) 
类 似 地 有 
己 { 正 确 地 判 为 X?} = P(22): pə, (8.21) 
己 { 误 判 到 X?} = P(2|1)- pi. (8.22) 
X L(1|2) 表示 来 自 Xo 被 误 判 为 Xi 引起 的 损失 ， L(2|1) 表示 来 自 Xi 被 
WD X. 引起 的 损失 ， 并 规定 L(1|1) = L(2]2]) = 0. 
将 上 述 误 判 概率 与 误 判 损失 结合 起 来 ， 定 义 平均 误 判 损失 (expected cost of 
misclassification, 简 记 为 ECM) 如 下 
ECM(R;, R3) = L(2|1)P(2|1)pi + L(1|2) P(1|2)ps. (8.23) 
一 个 合理 的 选择 是 使 ECM 达到 极 小 . 
2. 两 个 总 体 的 Bayes 判别 
可 以 证 明 ， 极 小 化 平均 误 判 损失 函数 (8.23) 的 划分 区 域 Ri 和 Ro 为 
mf, 


faz) LOI: m fa) ^ LOD) A Een 
因此 ， 可 以 将 式 (8.24) 作为 Bayes 判别 的 判别 准则 , 在 这 个 准则 中 只 需要 计算 ; 
(1) 样本 点 z 的 概率 密度 函数 比 (x)/f2(2); 














(2) 损失 比 L(1]2)/L(2]1); 

(3) 先 验 概率 比 p2/pi. 

下 面 讨论 正 态 分 布 情况 下 ， 样 本 点 x 的 概率 密度 函数 比 的 计算 . 设 X; 
N (ui, Xi) (i = 1,2), 分 别 考虑 总 体 协 方差 阵 相同 和 协 方差 阵 不 同 的 情况 . 

首先 考虑 总 体 协 方差 阵 相 同 的 情况 ， 即 X, = X9 — X. 此 时 X; 的 密度 为 


fi(z) = (2r) TPE! exp iae — m) E (£ — n) LP esp (8.25) 
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因此 ， Ri 和 Ro 划分 区 域 (8.24) 等 价 于 


RV - ls | W(x) > B}, d ls | W(x) < B} ， (8.26) 
其 中 
1 Tvy3—1 1 Ta—1 
W(x) = gt 一 /2) 2 tz 一 jp) 一 5 一 各 | M (z — m) 
= [eonun] E08 tm) (8.27) 
6 = TERRAM (8.28) 


不 难 发 现 ， 对 于 正 态 分 布 总 体 的 Bayes 判别 ， 其 判别 规则 (8.26)-(8.28) 可 以 
看 成 距离 判别 的 推广 ， 当 pi = p», L(1]2) = L(2]1) 时 ， 6 = 0, 就 是 距离 判别 . 


再 考虑 总 体 协 方差 隆 不 同 的 情况 ， 即 Y, Zo X. HO Ri 和 R 划分 区 域 
(8.24) 等 价 于 
Rie ls | W(x) > 8), Pre fz | W(x) < J (8.29) 
其 中 
Wie) = 5 一 parz- [a LL (8.30) 
人 en 


3. R 程序 与 例子 


按照 上 述 方法 写 出 两 总 体 判 别 的 Bayes 判别 程序 (程序 名 :， discriminiant 
.bayes.R). 
discriminiant.bayes «- function 
(TrnX1, TrnX2, rate = 1, TstX = NULL, var.equal = FALSE)( 
if (is.null(TstX) -- TRUE) TstX«-rbind(TrnX1,TrnX2) 
if (is.vector(TstX) -- TRUE) TstX «- t(as.matrix(TstX)) 
else if (is.matrix(TstX) !- TRUE) 
TstX «- as.matrix(TstX) 
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if (is.matrix(TrnX1) != TRUE) TrnX1 <- as.matrix(TrnX1) 
if (is.matrix(TrnX2) !- TRUE) TrnX2 <- as.matrix(TrnX2) 


nx <- nrow(TstX) 
blong <- matrix(rep(0, nx), nrow-1, byrow-TRUE, 
dimnames-list("blong", 1:nx)) 
mul <- colMeans(TrnX1); mu2 «- colMeans(TrnX2) 
if (var.equal == TRUE || var.equal == T){ 
S <- var(rbind(TrnX1,TrnX2)); beta <- 2*log(rate) 
w <- mahalanobis(TstX, mu2, S) 
- mahalanobis(TstX, mui, S) 
} 
else{ 
S1 <- var(TrnX1); S2 <- var(TrnX2) 
beta <- 2*log(rate) + log(det(S1)/det(S2)) 
w <- mahalanobis(TstX, mu2, S2) 
- mahalanobis(TstX, mui, S2) 


for (i im 1:nx){ 
if (wli] > beta) 
blong[i] «- 1 
else 
blong[i] «- 2 
} 
blong 
} 
在 程序 中 ， 输 入 变量 TrnX1,. TrnX2 表示 Xi 类 、 Xs 类 训练 样本 ， 其 输入 格式 
是 数据 框 , RERE (样本 按 行 输 入 ). rate= TO P2, 缺 省 值 为 1. TstX 是 待 测 样 
本 ， 其 输入 格式 是 数据 框 ， 或 矩阵 (样本 按 行 输入 ), 或 向 量 (一 个 待 测 样本 )， 如 
果 不 输 入 TstX( 缺 省 值 ), 则 等 测 样本 为 两 个 训练 样本 之 和 ， 即 计算 训练 样本 的 回 
代 情 况 . 输入 变量 var .equal 是 逻辑 变量 ，var .equalL=TRUE 表示 认为 两 总 体 的 
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协 方差 阵 是 相同 的 ; 否则 ( 缺 省 值 ) 是 不 同 的 .函数 的 输出 是 由 “1” 和 “2” 构 成 
的 的 一 维和 矩阵 ，“1” 表 示 待 测 样本 属于 Xi 类 ，“2” 表 示 待 测 样本 属于 Xs 类 . 
例 8.3 表 8.2 是 某 气 象 站 预报 有 无 春 旱 的 实际 资料 ， 21 与 Za 是 综合 预报 因子 
(气象 含义 略 )， 有 春 旱 的 是 6 个 年 份 的 资料 ， 无 春 早 的 是 8 个 年 份 的 资料 ， 它 
们 的 先 验 概率 分 别 用 6/14 和 8/14 来 估计 ， 并 假设 误 判 损失 相等 .试用 Bayes 
估计 对 数据 进行 分 析 . 


表 8.2: 某 气象 站 有 无 春 旱 的 资料 


By LOoROXE 
1 22.1 一 0.7 
2 21.6 —1.4 
3 22.0 一 0.8 
4 22.8 —1.6 
5 22.7 一 1.5 
6 21.5 —1.0 
T 22.1 —1.2 
8 21.4 —1.3 





解 : 输入 数据 CHOBEOEXO, BRUDER discriminiant.bayesO 进行 判 
别 (程序 名 : exam0803 .BR) 
> TrnXi«-matrix( 
c(24.8, 24.1, 26.6, 23.5, 25.5, 27.4, 
-2.0, -2.4, -3.0, -1.9, -2.1, -3.1), 
ncol=2) 
> TrnX2«-matrix( 
c(22.1, 21.6, 22.0, 22.8, 22.7, 21.5, 22.1, 21.4, 
-0.7, -1.4, -0.8, -1.6, -1.5, -1.0, -1.2, -1.3), 
ncol=2) 
> source("discriminiant.bayes.R") 


> discriminiant.bayes(X1, X2, rate-8/6, var.equal-TRUE) 


458 第 八 章 应 用 多 元 分 析 (了 


1234567289 10 11 12 13 14 
blong 1 11211222 2 22 2 2 


第 4 号 样本 被 错 判 . 

4. 多 分 类 问题 的 Bayes 判别 

从 上 面 的 计算 过 程 可 知 ，Bayes 判别 的 本 质 就 是 找到 一 种 判别 准则 ,使 得 平 
均 误 判 损失 达到 最 小 ， 也 就 是 相应 的 概率 达到 最 大 . 

假设 样本 共有 k 类 ， 分 别 是 2 Xo, TUUS Xk, 相应 的 先 验 概率 为 Di; 2; Dj 
并 假设 所 有 错 判 损失 是 相同 的 ， 因 此 相应 的 判别 准则 为 








R,—is|pfs)-maxpjs)h $—12, (8.32) 
当 达 类 总 体 的 协 方差 阵 相 同 ， 即 X, = X. = … 二 3x 二 X, 此 时 概率 密度 函 
数 为 
方 (Z) (2) "25:712 exp i-ge m i 3 (m 是 m)} ) J zx 1, 2, ER k, 
(8.33) 
则 计算 函数 
dj(z) — z(z — uj)! X! (x — uj) - Inpj, (8.34) 


2 
在 计算 中 ， 式 (8.34) 中 方差 用 其 估计 值 5 RE. 
Ak 类 总 体 的 协 方差 阵 不 同 ， 此 时 概率 密度 函数 为 


1 一 
fi(7) = (2r) TPE exp -30 — m) Xj L(x A »)] "ELLE Ta 


(8.35) 
则 计算 函数 
dla) = 下 re 一 同一 本 m(2h， (8.36) 
在 计算 中 ， 式 (8.36) 中 方差 X; 用 其 估计 值 5; 代替 . 
判别 准则 (8.32) 等 价 为 
Ri = {x | di(£) = min di(Z) uw—12,2 6 (8.37) 


1<j<k 


用 上 述 方法 编写 成 及 程序 (程序 名 : distinguish.bayes.R). 
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distinguish.bayes «- function 
(TrnX, TrnG, p = rep(1, length(levels(TrnG))), 
TstX = NULL, var.equal = FALSE)( 
if ( is.factor(TrnG) == FALSE)1 
mx <- nrow(TrnX); mg <- nrow(TrnG) 
TrnX «- rbind(TrnX, TrnG) 
TrnG «- factor(rep(1:2, c(mx, mg))) 
} 
if (is.null(TstX) == TRUE) TstX <- TrnX 
if (is.vector(TstX) -- TRUE) TstX «- t(as.matrix(TstX)) 
else if (is.matrix(TstX) !- TRUE) 
TstX «- as.matrix(TstX) 
if (is.matrix(TrnX) !- TRUE) TrnX «- as.matrix(TrnX) 


nx <- nrow(TstX) 
blong <- matrix(rep(0, nx), nrow-1, 
dimnames-list("blong", 1:nx)) 
g <- length(levels(TrnG)) 
mu <- matrix(0, nrow=g, ncol-ncol(TrnX)) 
for (i in 1:g) 
mu[i,] <- colMeans(TrnX[TrnG--i,]) 
D <- matrix(0, nrow-g, ncol-nx) 
if (var.equal == TRUE || var.equal == T){ 
for (i im 1:g){ 
d2 «- mahalanobis(TstX, mu[i,], var(TrnX)) 
D[i;] <- d2 - 2xlog(p[1]) 


} 
else{ 
for (i in 1:g){ 
S <- var(TrnX[TrnG--i,]) 
d2 <- mahalanobis(TstX, mu[i,l, S) 


D[i,] <- d2 - 2*1og(p[i])-1og(det(S)) 


F 
for (j in 1:nx){ 
dmin <- Inf 
for (i in 1:g) 
if (D[i,j] < dmin){ 
dmin <- D[i,j]; blong[j] <- i 


} 
blong 
} 


程序 分 别 考 虑 了 总 体 协 方差 阵 相 同和 协 方差 阵 不 同 的 情况 . 输入 变量 TrnX 表示 
训练 样本 ,其 输入 格式 是 矩阵 (样本 按 行 输入 ), 或 数据 框 . TrnG 是 因子 变量 , X 
示 训 练 样本 的 分 类 情况 . 输入 变量 p 是 先 验 概 率 ， 缺 省 值 均 为 1. 输入 变量 TstX 
是 待 测 样 本 ,其 输入 格式 是 矩阵 (样本 按 行 输入 ), 或 数据 框 , 或 向 量 (一 个 待 测 样 
本 ). 如 果 不 输入 TstX( 缺 省 值 ), 则 待 测 样 本 为 训练 样本 . 输入 变量 var. equal 是 
逻辑 变量 ，var.edqual=TRUE 表示 认为 总 体 协 方差 阵 是 相同 的 ; 否则 ( 缺 省 值 ) 是 
不 同 的 .函数 的 输出 是 由 数字 构成 的 的 一 维 和 矩阵， 数字 表示 相应 的 类 . 为 了 与 前 
面 两 总 体 的 判别 程序 兼容 , 对 于 二 分 类 问题 , 也 可 以 按照 discriminiant.bayes 
函数 的 输入 格式 输入 . 
例 8.4 用 Bayes 判别 对 Fisher Iris 数据 进行 分 析 ， 假设 先 验 概 率 是 相同 的 ， 均 
为 1. 考虑 方差 不 同 的 情况 . 
fi 
X«-iris[,1:4] 
G«-g1(3,50) 


> 
> 
> source("distinguish.bayes.R") 
> 
> 











distinguish. bayes(X,G) 
distinguish. bayes(X,G) 
123456789 10 11 12 13 14 15 16 17 18 19 20 21 22 
blong 111111111 1 1 1 1 1 1 1 1 1 1 1 1 1 


8.1 判别 分 析 461 


23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 
blog 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 
42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 
blog 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 22 22 
61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 
blong 2 2 2 2 2 2 2 2 3 2 3 2 3 2 2 2 2 3 2 
80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 
blog 2 2 2 2 32 2 2 2 2 2 2 2 2 2 22 2 2 
99 100 101 102 103 104 105 106 107 108 109 110 111 112 
blog 2 2 3 3 3 3 3 3 3 3 3 3 3 3 
113 114 115 116 117 118 119 120 121 122 123 124 125 126 
blog 3 3 3 3 3 3 3 3 3 3 3 3 3 3 
127 128 129 130 131 132 133 134 135 136 137 138 139 140 
blog 3 3 3 3 3 3 3 3 3 3 3 3 3 3 
141 142 143 144 145 146 147 148 149 150 
blog 3 3 3 3 3 3 3 3 3 3 


从 计算 结果 可 以 看 出 ， 只 有 第 69. 71. 73. 78. 84 号 样本 错 判 ， 回 代 的 判 
别 正确 率 为 145/150 = 96.6796. 


8.1.3 Fisher 判别 


Fisher ( REK) 判别 是 按 类 内 方差 尽量 小 ， 类 间 方 差 尽量 大 的 准则 来 求 判别 
函数 的 ， 在 这 里 仅 讨论 两 个 总 体 的 判别 方法 . 


1. 判别 准则 


设 两 个 总 体 Xi 和 Xi 的 均值 与 协 方差 阵 分 别 为 1a. a 和 Ei, Za, 对 于 任 给 
一 个 样本 v, 考虑 它 的 判别 函数 


u = u(x), (8.38) 


并 假设 


g 
= 
| 


E(u(x)|x€Xi) uz = E(u(x)|x € Xə), (8.39) 
A Var(u(z)| £ € Xj), o2 = Var(u(x) |x € Xə). (8.40) 


A 
il 
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Fisher 判别 准则 就 是 要 寻找 判别 函数 ule), 使 类 内 偏差 平方 和 
Wo = 0? +03 
最 小 ， 而 类 间 偏 差 平方 和 
Bo = (u1 — u)? + (u; — uy? 
最 大 ， 其 中 u= su + u2). 


将 上 面 两 个 要 求 结合 在 一 起 ， Fiber 判别 准则 就是 要 求 本 娄 u(z) 使 得 


(8.41) 

达到 最 大 . 因此 ， 判 别 准则 为 
Rı = {2 | (x) -ul < |u(x) — u|}, (8.42) 
R = iz|lu(z) ^ u| > lu(z) — ual). (8.43) 


2. 线性 判别 函数 中 系数 的 确定 


从 理论 上 讲 ，w(z) 可 以 是 任意 函数 ,但 对 于 任意 函数 u(x) 使 式 (8.41) 中 的 
7 达到 最 大 是 很 困难 的 ， 因 此 ， 通 常 取 u(x) 为 线性 函数 ， 即 令 





u(x) = afr = axı 十 aa72 ^ -+ + apip. (8.44) 


因此 ， 问 题 就 转化 为 求 uc) 的 系数 a, 使 得 目标 函数 7 达到 最 大 ， 

nA NU oM Ou inia ic eir qUoe 
要 用 样本 均值 与 协 方差 阵 来 代替 . 设 nU nl. at 是 来 自 总 体 X 的 n 个 样 
D E M MEER pup rc MM 
和 cs 的 估计 ， 


= azDO， i=1,2, (8.45) 


= aT, (8.46) 
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i- ibn-i Im 
0l qu E (29 - z0) (aP - 70) IL 
ni— 1 = j 
E p Sa ISLA (8.47) 
其 中 
n = ni +n, 
Bye Y (eP - 70) (s -29)", — im 


因此 ， 将 类 内 偏差 的 平方 Wo 与 类 间 偏 差 平 方 和 Bo 改 为 组 内 离 差 平方 和 Wo 与 
组 间 离 偏差 的 平方 和 Bo, 即 


2 





Wo = X (nmi-1)ô? =a" ($1 + S2) a = a" Sa, (8.49) 
i—1 
" 2 2 T T 
Bo = 3 ns EX ELT (Y: ni (z0 — 7) (z0 -7) ) a 
i—1 i=1 
= 779 q' (ad) a, (8.50) 
Neh S= Si+ So n= mena d= (399 - 507). 因此 R T= 2 最 大 等 价 
0 
TR 
a? (dd*)a 
aT Sa 








RA. ANEDE, BAIER az 00, 它 的 任意 非 零 倍 均 保 持 其 值 不 
AB. 不 失 一 般 性 ， 将 求 最 大 问题 转化 为 约束 优化 问题 


max ai(dd7)a， (8.51) 
st. a Sa=1. (8.52) 


由 约束 问题 的 一 阶 必要 条 件 得 到 


a = SM. (8.53) 
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3. 确定 判别 函数 
对 于 一 个 新 样本 r, 现 要 确定 x 属于 哪 一 类 ， 为 方便 起 见 ， 不 妨 设 页 < us. 
因此 由 判别 准则 (8.42), 当 w(x) < uj; Ej, WM] x € X, 当 u(x) > uz, WU 
x € X». 那么 , 4U < ulr) <w Ht, c 属于 哪 一 总 体 呢 ? 应 当 找 un ur 的 均值 
Wi. 


全 722_ 
u = —uj- 一 2， 
n n 


当 u(x) <T EF, WA eX; 否则 判 x € Xz. 





由 
u(r)-€ = uw(z)- (Sur ms) = oz (s = Ta 5 27) 
= a'(z— 3) - d'S- (s — 7), (8.54) 
其 中 
PO = 3s. i2 1,2, 
z= "Um ya 2»» 
HEREA, TMERRE. AE, TOi pes 
w(x) = qd S7! (x — T), (8.55) 

此 时 ， 判 别 准则 (8.42)-(8.43) 等 价 为 

Rı = {x | wz) £0) Rj-(m|w(z) 0). (8.56) 


4. R 程序 与 例子 
根据 前 面 所 述 方 法 ,编写 相应 的 R 程序 (程序 名 : discriminiant.fisher.R) 


discriminiant.fisher <- function(TrnX1, TrnX2, TstX = NULL){ 


if (is.null(TstX) -- TRUE) TstX «- rbind(TrnX1,TrnX2) 


if (is.vector(TstX) -- TRUE) 
else if (is.matrix(TstX) != TRUE) 


TstX «- t(as.matrix(TstX)) 
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TstX <- as.matrix(TstX) 
if (is.matrix(TrnX1) != TRUE) TrnX1 <- as.matrix(TrnX1) 
if (is.matrix(TrnX2) != TRUE) TrnX2 <- as.matrix(TrnX2) 


nx <- nrow(TstX) 
blong <- matrix(rep(0, nx), nrow-1, byrow-TRUE, 
dimnames-list("blong", 1:nx)) 
ni <- nrow(TrnX1); n2 <- nrow(TrnX2) 
mul <- colMeans(TrnX1); mu2 «- colMeans(TrnX2) 
S <- (ni-1)*var(TrnX1) + (n2-1)*var(TrnX2) 
mu <- ni/(ni*n2)*mui1 + n2/(n1-*n2)*xmu2 
w <- (TstX-rep(1,nx) %0% mu) /4*^ solve(S, mu2-mu1); 
for (i in 1:nx)1 
if (w[i] <= 0) 
blong[i] «- 1 
else 
blong[i] «- 2 
} 
blong 
} 


在 程序 中 ， 输 入 变量 TrnX1, TrnX2 表示 Xi 26. Xs 类 训练 样本 ， 其 输入 格式 
是 数据 框 ， 或 窍 阵 (样本 按 行 输入 ). TstX 是 待 测 样本 ， 其 输入 格式 是 数据 框 ， 或 
矩阵 (样本 按 行 输入 ), 或 向量 (一 个 待 测 样本 )， 如 果 不 输入 TstX( 缺 省 值 ), 则 待 
测 样 本 为 两 个 训练 样本 之 和 ， 即 计算 训练 样本 的 回 代 情况 . 函数 的 输出 是 由 “1” 
和 “2” 构 成 的 的 一 维 怎 阵 ，“1” 表 示 待 测 样本 属于 Xi 类 ，“2” 表 示 待 测 样 本 
属于 X. 类 . 

例 8.5 用 Fisher 判别 解 例 8.1. 

f. 输入 数据 ( 见 程序 exam0801.R), 调用 函数 discriminiant.fisherO. 


> source("discriminiant.fisher.R") 
> discriminiant.fisher(classX1, classX2) 


123456789 10 11 12 13 14 15 16 17 18 19 20 21 22 
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blong 1 11111111 1 1 1 2 2 22 22 22 2 2 
23 24 25 26 27 28 29 30 31 32 33 34 35 
blong 2 2 2 2 2 1 1 2 2 2 2 2 2 


将 训练 样本 回 代 进行 判别 ， 有 两 个 点 判 错 ， 分 别 是 第 28, 29 号 样本 . 
对 于 多 类 的 Fisher 判别 ， 甚 基本 原理 是 相同 的 ， 这 里 就 不 介绍 了 . 


8.2 ” 聚 类 分 析 


聚 类 分 析 (cluster analysis) 是 一 类 将 数据 所 研究 对 象 进行 分 类 的 统计 方法 . 
这 一 类 方法 的 共同 特点 是 : 事先 不 知道 类 别 的 个 数 与 结构 ; 据 以 进行 分 析 的 数据 
是 对 象 之 间 的 相似 性 (similarity) 或 相 异 性 (dissimilarity) 的 数据 ， 将 这 些 相似 
HF) 性 数据 看 成 是 对 象 之 间 的 “距离 ”远近 的 一 种 度量 ， 将 距离 近 的 对 象 归 
入 一 类 ， 不 同类 之 间 的 对 象 距 离 较 远 ， 这 就 是 聚 类 分 析 方 法 的 共同 思路 ， 

聚 类 分 析 根 据 分 类 对 象 不 同 分 为 Q 型 聚 类 分 析 和 R 型 聚 类 分 析 .， Q AR 
类 分 析 是 指 对 样本 进行 聚 类 ， R 型 聚 类 分 析 是 指 对 变量 进行 聚 类 分 析 . 








8.2.1 ”距离 和 相似 系数 


聚 类 分 析 是 研究 对 样本 或 变量 的 聚 类 ， 在 进行 聚 类 时 ， 可 使 用 的 方法 有 很 
多 ， 而 这 些 方法 的 选择 往往 与 变量 的 类 型 是 有 关系 的 ， 由 于 数据 的 来 源 及 测量 方 
法 的 不 同 ， 变 量 大 致 可 以 分 为 两 类 

(1) 定量 变量 . 也 就 是 通常 所 说 的 连续 量 ， 如 长 度 、 重 量 、 产 量 、 人 口 、 速 度 
和 温度 等 ， 它 们 是 由 测量 或 计数 、 统 计 所 得 到 的 量 ， 这 些 变 量具 有 数值 特征 ， 称 
为 定量 变量 . 

(2) 定性 变量 ,这些 量 并 非 真有 数量 上 的 变化 ， 而 只 有 性 质 上 的 差异 .这 些 
量 还 可 以 分 为 两 种 ， 一 种 是 有 序 变 量 ， 它 没有 数量 关系 ， 只 有 次 序 关系 ， 如 某 种 
产品 分 为 一 等 品 、 二 等 品 、 三 等 品 等 ,矿石 的 质量 分 为 贫 矿 和 富矿 ， 男 一 种 是 名 
义 变量 ， 这 种 变量 即 无 等 级 关系 ， 也 无 数量 关系 ， 如 天 气 (A. I), 性 别 ( 男 、 
女 ) 、 职 业 (工人 、 农 民 、 教 师 、 干 部 ) 和 产品 的 型 号 等 . 


1. 距离 
设 vig 为 第 i 个 样本 的 第 j 个 指标 ,数据 逢 阵 如 表 8.3 所 示 . 在 表 8.3 中 ， 
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Xx 8.3: 数据 矩阵 
变 量 
样本 
X1 Ta Tp 
1 Tii T12 Tip 
2 T21 T22 T2p 
n Tni X2 Tnp 





每 个 样本 有 p 个 变量 ， 故 每 个 样本 可 以 看 成 是 RP 中 的 一 个 点 ， n 个 样本 就 是 
Re 中 的 n 个 点 . 在 OR? 中 需要 定义 某 种 距离 ， 第 i 个 样本 与 第 j 个 样本 之 间 的 
距离 记 为 dj, 在 聚 类 过 程 中 ,距离 较 近 的 点 倾向 于 归 为 一 类 ,距离 较 远 的 点 应 归 
属 不 同类 .所 定义 的 距离 一 般 满足 如 下 四 个 条 件 : 

(1) di; > 0, 对 一 切 i, j; 

(2) di; = 0, 当 且 仅 当 第 i 个 样本 与 第 ; 个 样本 的 各 变量 值 相同 ; 

(3) dij = dja, 对 一 切 i, j; 

(4) dij € dik + dj, 对 一 切 i, j, k. 

对 于 距离 最 常用 的 有 以 下 几 种 : 

(1) 绝对 值 距离 


p 
k=l 


绝对 值 距 离 也 称 为 “棋盘 距离 ”或 “城市 街区 ”距离 
(2) Euclide 距离 


p 
dij(2) = | 》 (zi — 25). (8.58) 
k=1 
这 就 是 通常 意义 下 的 距离 . 
(3) Minkowski 距离 


p 1/q 
0- | (zik — 25k) j , q>0. (8.59) 
k=1 
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不 难看 出 绝对 值 距离 和 Euclide 距离 是 Minkowski 距离 的 特例 . 

当 各 变量 的 单位 不 同 或 测量 值 的 范围 相差 很 大 时 , 不 应 直接 采用 Minkowski 
距离 ， 而 应 先 对 各 变量 的 数据 作 标 准 化 处 理 ， 然 后 再 用 标准 化 后 的 数据 进行 计 
算 . 

(4) Chebyshev ( 切 比 雪 夫 ) 距离 








dij(oo) = me [Zik — Tjk), (8.60) 


它 是 Minkowski 距离 中 9 一 oo 的 情况 
(5) Mahalanobis 距离 


di (M) = y (xq) — tg) Sra — 20)), (8.61) 


其 中 TX) — (Zi Tiz, s Aog t. Tj) = (zj1, Tj2, as Sap a S 为 样本 方差 窍 阵 . 

用 Mahalanobis 距离 的 好 处 是 考虑 到 各 变量 之 间 的 相关 性 , 并 且 与 变量 的 单 
位 无 关 . 但 Mahalanobis 距离 有 一 个 很 大 的 缺陷 ， 就 是 Mahalanobis 距离 公式 中 
的 S 难以 确定 . 

(6) Lance 和 Williams 距离 

[tis 一 Iz — vj 
p-y cn Tik t Tjk ] (8.62) 
其 中 Tij > 0, i= 1,2,.……,n, j = 1,2,:--,p. 

以 上 几 种 距离 的 定义 均 要 求 变量 是 定量 变量 , 下 面 介 绍 一 种 定性 变量 距离 的 
定义 方法 . 

(7) 定性 变量 样本 间 的 距离 

在 数量 化 的 理论 中 ,， 常 将 定性 变量 称 为 项 目 , 而 将 定性 变量 的 各 种 不 同 的 取 
“ 值 ” 称 为 类 目 . 性 别 是 项 目 ， 而 男 或 女 是 这 个 项 目的 类 目 . 体形 也 是 一 个 
项 目 ， 而 适中 、 胖 、 瘦 、 壮 等 是 这 个 项 目的 类 目 . 设 样本 




















guy = (0:(1,1),0i(1,2),..:,0:(2,71),0:(2,1),6i(2,2),...,0i(2,72), 
,0i(m, 1), ó;(m, 2), ses <, ilM, r4))7, i= 1,2,- n, 
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其 中 为 样本 的 个 数 ，m 为 项 目的 个 数 ，7x 为 第 大 个 项 目的 类 目 数 ，71 十 rz 十 
… 十 Im =P, 

TE 1， 第 i 个 样本 中 第 有 个 项 目的 数据 为 第 1 个 类 目 时 ， 

^^^ o m. 
fk Cilk, D 2998 k AWEZI RER i 个 样本 中 的 反应 . 

例如 ， 考 虑 项 目 1 为 性 别 ， 其 目 类 为 男 、 女 . SSH 2 为 外 语种 类 ， 其 目 类 为 

英 、 日 、 德 、 俄 . 项 目 3 为 专业 ， 其 目 类 为 统计 、 会 计 、 金 融 .， 项 目 4 为 职业 ， 
其 目 类 为 教师 、 工 程 师 . 现 有 两 个 样本 ， 第 一 个 人 是 男性 ， 所 学 外 语 是 英语 ， 所 
学 专业 是 金融 ， 其 职业 是 工程 师 ， 第 二 个 人 是 女性 ， 所 学 外 语 是 英语 ， 所 学 专业 
是 统计 ， 其 职业 是 教师 . 表 8.4 给 出 相应 的 项 目 、 类 目 和 样本 的 取 值 情况 . 这 里 


表 8.4: BB. ee 











ncm qd eedoppe2 pobre pp pm 

设 有 两 个 样本 ta, top Æ 0;( D) = ó;(k, D) = 1, 则 称 这 两 个 样本 在 第 个 
项 目的 第 1 类 目 上 1 一 1 RORIS SD = GED 一 0, 则 称 这 两 个 样本 在 第 
个 项 目的 第 L2SH.E 0 — 0 BOSE, Er lk, 0D) z 6505 D), 则 称 这 两 个 样本 在 第 个 
项 目的 第 1 类 目 上 不 配对 . 

Wm X ry H rgo 在 m 个 项 目 所 有 类 目 中 1 一 1 配对 的 总 数 ，mo 0-0 
配对 的 总 数 ， ms 为 不 配对 的 总 数 ， 显 然 ， 有 


mo 十 m + m» = p. 


样本 x(;) 和 ro 之 间 的 距离 可 以 定义 为 











M2 


di; = 一 一 一 一 . 8.63 
4 TI 十 m» ( ) 


对 于 表 8.4 中 的 数据 ， mo — 4, mi = 1, m = 6. 因此， 距离 为 diz = 6/7 = 
0.8571429. 
fr R 软件 中 ，dist() 函数 给 出 了 各 种 距离 的 计算 结果 ， 其 使 用 格式 为 
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dist(x, method = "euclidean", 
diag = FALSE, upper = FALSE, p = 2) 
其 中 x 是 样本 构成 的 数据 和 窍 阵 (样本 按 行 输入 ) 或 数据 框 . method 表示 计算 距 
离 的 方法 ， 缺 省 值 为 Euclide 距离 ， 所 定义 的 距离 有 
"euclidean" 一 Euclide 距离 ， 即 按 公 式 (8.58) 计算 . 
"maximum" — Chebyshev 距离 ， 即 按 公 式 (8.60) 计算 . 
"manhattan" 一 绝对 值 距离 ， 即 按 公 式 (8.57) 计算 . 
"canberra" — Lance ES. 事实 上 ， 它 是 Lance 距离 的 扩充 ， 并 不 要 求 
Tij > 0, 计算 公式 为 





p 
3 [Zie — Tn (8.64) 
[Zik + TN 
e "minkowski" 一 Minkowski 距离 ， 其 中 参数 p 是 Minkowski 距离 的 阶 数 ， 


即 公 式 (8.59) 中 的 q. 
e "binary" 一 定性 变量 的 距离 ， 按 公式 (8.63) 计算 . 

diag 是 逻辑 变量 ， 当 diag = TRUE 时 , 给 出 对 角 线 上 的 距离 upper 是 逮 
辑 变量 ， 当 upper = TRUE 时 ， 给 出 上 三 角 和 矩阵 的 值 AENA IB P — HB EE 
的 值 ). 

2. 数据 中 心 化 与 标准 化 变换 

在 作 聚 类 分 析 过 程 中 ， 大 多 数 数据 往往 是 不 能 直接 参与 运算 的 , 需要 先 将 数 
据 作 中 心 化 或 标准 化 处 理 . 

(1) 中 心 化 变换 . 称 








Tij = Tij — Tj, i= 1,2,- n, 2—12,--., p (8.65) 


为 中 心 化 变换 .变换 后 数据 的 均值 为 0, 方差 阵 不 变 . 
(2) 标准 化 变换 ， 称 


qt — 79 1—1,2,-.,n,j3—1L.2,--.,p (8.66) 
5j 


为 标准 化 变换 . 变换 后 数据 ， 每 个 变量 的 样本 均值 为 0, 标准 差 为 1, 而 且 标 准 化 
后 的 数据 与 变量 的 量 纲 无 关 . 
在 R 软件 中 ， 可 用 scale() 函数 作 数 据 的 中 心 化 或 标准 化 ， 其 使 用 格式 为 
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scale(x, center = TRUE, scale = TRUE) 
其 中 x 是 样本 构成 的 数据 矩阵 . center 是 逻辑 变量 ， TRUE( 缺 省 值 ) 表示 对 
数据 作 中 心 化 变换 ， FALSE 表示 不 作 变 换 . scale 是 逻辑 变量 ， TRUE( 缺 省 
值 ) 表示 对 数据 作 标 准 化 变换 ， FALSE 表示 不 作 变 换 . 对 应 于 公式 (8.65) fit 
算 函 数 为 z* = scale(x, scale = FALSE); 对 应 于 公式 (8.66) 的 计算 函数 为 
z* = scale(x). 
(3) 极 差 标准 化 变换 ， 称 
d =l 2 ean JS pep (8.67) 
为 极 差 标准 化 变换 . 变换 后 数据 , 每 个 变量 的 样本 均值 为 0, 极 差 为 1, H |zx;| < 1, 
在 以 后 的 分 析 计 算 中 可 以 减少 误差 的 产生 ,同时 变换 后 的 数据 也 是 无 量 纲 的 量 . 
E R 软件 中 ， 可 用 sweepO 函数 作 极 差 标 准 化 变换 ， 其 变换 过 程 如 下 : 
center <- sweep(x, 2, apply(x, 2, mean)) 
R <- apply(x, 2, max) - apply(x,2,min) 
x star <- sweep(center, 2, R, "/") 
其 中 x 是 样本 构成 的 数据 矩阵 . 第 一 行 是 将 数据 中 心 化 ， 即 式 (8.65). 第 二 行 是 
计算 极 差 Rj,7 = 1,2,…,p. 第 三 行 是 将 中 心 化 后 的 数据 除 以 极 差 ， 得 到 数据 的 
极 差 标准 化 数据 . 
在 上 述 命令 中 用 到 sweepO 函数 ， sweep() 函数 对 数组 或 矩阵 进行 运算 ， 
sweep(x, MARGIN, STATS, FUN-"-", ...) 
其 中 x 是 数组 或 矩阵 MARGIN 是 运算 的 区 域 , 对 于 矩阵 来 讲 ， 1 表示 行 ， 2 表 
示 列 . STATS 是 统计 量 ， 如 apply(x, 2, mean) 表示 各 列 的 均值 .FUN K 
数 的 运算 ， 缺 省 值 为 减法 运算 
从 sweep() 函数 的 规则 可 知 ， 如 果 将 命令 中 的 第 三 行 改 为 
x star <- sweep(center, 2, sd(x), "/") 
得 到 的 就 是 (普通 ) 标准 化 变换 后 的 数据 . 
(4) 极 差 正 规 化 变换 . PK 


Tij — min Tkj 
tj = — R ` i= 1,2,- n, j = 1,2,- p (8.68) 
J 
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为 极 差 正规 化 变换 ， 变换 后 数据 0 < ox; < 1, REN 1, 也 是 无 量 纲 的 量 . 
利用 sweepO 函数 ， 可 以 很 容易 得 到 数据 的 极 差 正规 化 变换 ， 其 变换 过 程 
如 下 





center <- sweep(x, 2, apply(x, 2, min)) 
R «- apply(x, 2, max) - apply(x,2,min) 


x star <- sweep(center, 2, R, "/") 

HP x 是 样本 构成 的 数据 窍 阵 . 

3. 相似 系数 

聚 类 分 析 方 法 不 仅 用 来 对 样本 进行 分 类 ,而 且 可 用 来 对 变量 进行 分 类 , 在 对 
变量 进行 分 类 时 ， 常 用 相似 系数 来 度量 变量 之 间 的 相似 程度 . 

Wt ci; 表示 变量 Xi 和 XX; 间 的 相似 系数 ， 一 般 要 求 ; 

(1) ci = +1 当 且 仅 当 X; = aX; (a #0); 

(2) |ei] € 1, 对 一 切 i,j 成 立 ; 

(3) cij = Cji, 对 一 切 i, 3 成 立 . 
|c;| 越 接 近 1, 则 表示 X: 和 X; 的 关系 越 密切 ， cz 越 接近 0, WAARA R 
远 . 

(1) KARIZ. 变量 X; 的 n 次 观测 值 为 (zt Tais, Eni), M Xi 5j X; 的 夹 
角 余 弦 称 为 两 向 量 的 相似 系数 ， 记 为 cy), BI 











T 
25 Tk; 
k=1 


LUE remi TE. 
k=1 k=1 


M Xi 和 X; 平行 时 ， cij(1) = +1, 说 明 这 两 向 量 完全 相似 ， 当 X 和 X; EX 
EF, cij(1) = 0, 说 明 这 两 向 量 不 相关 . 

E R 软件 中 ， 可 用 scale() 也 数 完成 两 向 量 夹 角 余弦 的 计算 ， 其 计算 公式 
如 下 : 


i,j = eee (8.69) 








y <- scale(x, center = F, scale = T)/sqrt(nrow(x)-1) 


C <- t(y) %*h y 
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其 中 x 是 样本 构成 的 数据 矩阵 ，c 是 由 式 (8.69) 计算 相 出 的 似 系数 构成 的 矩阵 
注意 ， 由 于 标准 化 变换 除 的 是 S, 而 公式 (8.69) 需要 除 | ch H3 Vni 
B, WOMEASUPOESEHR E vn — T. 


(2) 相关 系数 . 相关 系数 就 是 对 数据 作 标 准 化 处 理 后 的 夹 角 余 粥 .也 就 是 变 
量 X 和 变量 X; 的 相关 系数 rug. 这 里 记 为 ci;(2), Bl 


Mes 


(Tki — Ti) (Eki — 7) 
cij(2) = = REM S E 1,7—1,2,:--,p. (8.70) 


T 
(Tii TB) » i cx) 
k=1 


Ms 


Eo 
Il 


34 cij(2) = +1 时 表示 两 变量 线性 相关 . 

在 RR 软件 中 ， ci;(2) 的 计算 更 加 方便 ， 即 样本 的 相关 秆 阵 ， 

C «- cor(x) 

其 中 x ERER I REE RE. 

变量 之 间 篆 借助 于 相似 系数 来 定义 距离 ， 如 令 

dj-1-6. (8.71) 

有 时 也 用 相似 系数 来 度量 样本 间 的 相似 程度 . 
8.2.2 ”系统 聚 类 法 


系统 聚 类 方法 (hierarchical clustering method) 是 聚 类 分 析 诸 方法 中 用 得 最 
多 的 一 种 ， 其 基本 思想 是 : 开始 将 n 个 样本 各 自作 为 一 类 ,并 规定 样本 之 间 的 距 
离 和 类 与 类 之 间 的 距离 ， 然 后 将 距离 最 近 的 两 类 合并 成 一 个 新 类 ,计算 新 类 与 其 
他 类 的 距离 ， 重 复 进行 两 个 最 近 类 的 合并 ， 每 次 减少 一 类 ， 直 至 所 有 的 样本 合并 
为 一 类 . 

以 下 用 di 表示 第 i 个 样本 与 第 7 个 样本 的 距离 ，G1, Ga, 表示 类 ， DkL 
表示 Gk 与 GL WER. 在 下 面 所 介绍 的 系统 聚 类 法 中 ， 所 有 的 方法 一 开始 每 个 
样本 自 成 一 类 ， 类 与 类 之 间 的 距离 与 样本 之 间 的 距离 相同 ， 即 Der = drr, 所 以 
最 初 的 距离 矩阵 全 部 相同 ， 记 为 Do = (di). 


1. 最 短 距 离 法 
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定义 类 与 类 之 间 的 距离 为 两 类 最 近 样 本 间 的 距离 ， 即 


iEGK,IJEGL 
称 这 种 系统 聚 类 法 为 最 短 距离 法 (single linkage method). 
当 某 步 又 类 Gk 和 Gr 合并 为 Gu 后 ， 按 最 短 距 离 法 计算 新 类 Gu 与 其 他 
类 Gy 的 类 间距 离 ， 其 递 推 公式 为 


min di; = min min dj, min dij 
i€Gyw,j€G; i€Gk,j€G; i€Gr,j€G;j 


一 min( Dr, Drg}. (8.73) 


Dy; = 


2. 最 长 距离 法 
定义 类 与 类 之 间 的 距离 为 两 类 最 远 样本 间 的 距离 ， 即 


max 
iEGK,JEGL 
称 这 种 系统 聚 类 法 为 最 长 距离 法 (complete linkage method). 

当 某 步 又 类 Gk 和 GL 合并 为 Gy 后 ， 则 Gy 与 任 一 类 GJ 距离 为 


Dms 二 二 max{ Dkr, Drg}. (8.75) 


3. 中 间距 离 法 
类 与 类 之 间 的 距离 即 不 取 两 类 最 近 样 本 的 距离 ， 也 不 取 两 类 最 远 样 本 的 距 
离 ， 而 是 取 介 于 两 者 中 间 的 距离 ， 称 为 中 间距 离 法 (median method). 
设 某 一 步 将 Gk 和 Gr 合并 为 Gum, 对 于 任 一 类 Gj, 考虑 由 Dir, Dy; 和 
Di; 为 边 长 组 成 的 三 角形 (如 图 8.2 所 示 ), W Dreri 边 的 中 线 作 为 Dus. 由 初等 
平面 几何 可 知 ， Dms 的 计算 公式 为 
1 1 


1 
Dij; = 5Dk 十 3D 一 JPK (8.76) 


这 就 是 中 间距 离 法 的 递 推 公式 . 
中 间 法 可 推广 为 更 一 般 的 情形 ， 将 式 (8.76) 中 三 项 的 系数 依赖 于 某 个 参数 
8, Bl 


Lupo 1 
Dh- (32 F 3 + BDfL, (8.77) 
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GK 


Dij De 
DMJ 


GJ GL 
Drj 





图 8.2: 中 间距 离 法 的 几何 表示 


其 中 0 < 1, 这 种 方法 称 为 可 变法 . 34 6 = 0 时 ， 递 推 公式 变 为 
1 


1/1 
万 条 = > (X; 4 3 (8.78) 


称 此 方法 为 Mcquitty 相似 分 析 法 . 
4. 类 平均 法 
类 平均 法 (average linkage method) 有 两 种 定义 ， 一 种 定义 方法 是 把 类 与 类 
之 间 的 距离 定义 为 所 有 样本 对 之 间 的 平均 距离 ， 即 定义 Gk 和 Gr 之 间 的 距离 为 
pe di (8.79) 


Ti Ty 
K E Ono 


其 中 nk 和 nz 分别 为 类 Gk 和 Gr 的 样本 个 数 ， di; 为 Gk 中 样本 i 与 GL 中 
的 样本 7 之 间 的 距离 .容易 得 到 它 的 一 个 递 推 公式 : 
1 

















Du; = YT dij 

M J jeg jeGy 
1 

-— MH > dij 十 > dij 
MJ i€Gk,jeG; iEGL,JEGJ 
ng nr, 

= ED De (8.80) 
NM NM 


男 一 种 定义 方法 是 定义 类 与 类 之 间 的 平方 距离 为 样本 对 之 间 平 方 距离 的 平 
均值 ， 即 
Dd e (8.81) 


ngn 
K PUEDE 


NM NM 
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类 平均 法 较 好 在 利用 了 所 有 样本 之 间 的 信息 ,在 很 多 情况 下 , 它 被 认为 是 一 
种 较 好 的 系统 聚 类 法 . 
在 递 推 公式 (8.82) 中 ，Diz 的 影响 没有 被 反映 出 来 ， 为 此 可 将 该 递 推 公式 
进一步 推广 为 
Di, = 0-9 (ZE Dgs + ZEE) + Dk, (8.83) 


其 中 6 < 1, 称 这 种 系统 聚 类 法 为 可 变 类 平均 法 . 
5. 重心 法 


类 与 类 之 间 的 距离 定义 为 它们 的 重心 (均值 ) 之 间 的 Euclide 距离 . 设 Gk 和 
GL 的 重心 分 别 为 Tk M TL, W Gk 与 Gr 之 间 的 平方 距离 为 





Derk ar CrTi) (PT). (8.84) 


TERZO 


这 种 系统 聚 类 方法 称 为 重心 法 (centroid hierarchical method). 它 的 递 推 公式 为 


We (8.85) 





n n 

2 | "'K n2 L pna 

Dus = — Dk; + — Dij- —s 
NM NM NM 


重心 法 在 处 理 异 常 值 方 面 比 其 他 系统 类 法 更 稳健 , 但 是 在 别 的 方面 一 般 不 如 
类 平均 法 或 离 差 平方 和 法 的 效果 好 . 
6. 离 差 平方 和 法 《Ward 方法 ) 


离 平方 和 法 是 Ward(1936) 提出 的 , 也 称 为 Ward 法 . 它 基 于 方差 分 析 思 想 ， 
如 果 类 分 得 正确 , 则 同类 样本 之 间 的 离 差 平方 和 应 当 较 小 , 不 同类 样本 之 间 的 离 
差 平方 和 应 当 较 大 . 

设 类 Gr 和 Gr 合并 成 新 的 类 Gu, M Gr, Gr, Gu 的 离 差 平 方 和 分 别 是 


Wk = M (zo —Zx) (2) — Tr), 
Wr = X (t-z: (zo — i), 


Wm = »3 (za) — Tu) (a) = Tm). 
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它们 反映 了 各 自 类 内 样本 的 分 散 程度 . 如 Gk 和 Gz 这 两 类 相距 较 近 ， 则 合并 后 
所 增加 的 离 差 平方 和 Wu — Wi — Wi 应 较 小 ， 否则 ， 应 较 大 . 于 是 定义 Gk 和 
GL 之 间 的 平方 距离 为 

Di, = Wy — Wy — Wz. (8.86) 


这 种 系统 聚 类 法 称 为 离 差 平方 和 法 或 Ward 方法 (Ward's minimum variance 
method). 它 的 递 推 公式 为 

















EN 十 Tip, NJ 
AR y E E i y 8.87 
MITT IR BU E Um Mi dam (8.87) 
Gr 和 GL 之 间 的 平方 距离 也 可 以 写成 
Di,— E75 (gy —g,)" (zy — 2;). (8.88) 
nw 





可 见 ， 这 个 距离 与 由 式 (8.84) 给 出 的 重心 法 的 距离 只 相差 一 个 常数 倍 . 重心 法 的 
类 间距 与 两 类 的 样本 数 无 关 , 而 离 差 平 方 和 法 的 类 间距 与 两 类 的 样本 数 有 和 较 大 的 
关系 ， 两 个 大 类 倾向 于 有 较 大 的 距离 ， 因 而 不 易 合 并 ， 这 更 符合 对 聚 类 的 实际 要 
RK. 离 差 平方 和 法 在 许多 场合 下 优 于 重心 法 ， 是 比较 好 的 一 种 系统 聚 类 法 ， 但 它 
对 异常 值 很 敏感 . 

7. 系统 聚 类 的 R 软件 计算 

E R 软件 中 ，hclust() 函数 提供 了 系统 聚 类 的 计算 ， plotO 函数 可 画 出 
系统 聚 类 的 树 形 图 (或 称 为 谱系 图 ， dendrogram). 

hclust() 函数 的 使 用 格式 为 

hclust(d, method = "complete", members-NULL) 

其 中 a 是 由 "dist" 构成 的 结构 . method 是 系统 聚 类 的 方法 ( 缺 省 是 最 长 距离 
法 ), 其 参数 有 


e "single" 一 最 短 距离 法 ， 即 公式 (8.72)-(8.73). 
e "complete" 一 最 长 距离 法 ， 即 公式 (8.74)-(8.75). 
e "median" 一 中 间距 离 法 ， 即 公式 (8.76). 

e "ncquitty" — Mcquitty 相似 法 ， 即 公式 (8.78). 


"average" 一 类 平均 法 ， 这 里 采用 的 是 公式 (8.79)-(8.80). 
"centroid" 一 重心 法 ， 即 公式 (8.84)-(8.85). 
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e "ward" 一 离 差 平 方 和 法 ， 即 公式 (8.86)-(8.87). 
members 缺 省 值 为 NULL, 或 与 a 有 相同 变量 长 度 的 向 量 , 具体 使 用 方法 请 见 
在 线 帮 助 . 
plot() 函数 画 出 谱系 图 的 格式 为 
plot(x, labels = NULL, hang = 0.1， 





axes = TRUE, frame.plot = FALSE, ann = TRUE, 
main = "Cluster Dendrogram", 
sub = NULL, xlab = NULL, ylab = "Height", ...) 
其 中 x 是 由 helustO 函数 生成 的 对 象 .hang 是 表明 谱系 图 中 各 类 所 在 的 位 
置 ， 当 hang 取 负 值 时 ， 谱 系 图 中 的 类 从 底部 画 起 ， 其 他 参数 的 意义 请 见 在 线 帮 
By. 
下 面 通过 一 些 简 单 的 例子 来 说 明 系 统 聚 类 方法 ， 以 及 R 函数 的 使 用 方法 . 
例 8.6 设 有 五 个 样本 ， 每 个 样本 只 有 一 个 指标 ,分 别 是 1,2,6,8,11, 样本 间 的 距 
离 选用 Euclide 距离 ， 试 用 最 短 距 离 法 、 最 长 距离 法 等 方法 进行 聚 类 分 析 ， 并 画 
出 相应 的 谱系 图 . 
ff. Hj Euclide 距离 计算 各 样本 点 间 的 距离 ， 用 最 短 距离 法 、 最 长 距离 法 、 
中 间距 离 法 和 Mcquitty 相似 法 进行 聚 类 分 析 ， 并 画 出 四 种 方法 的 谱系 图 ， 而 且 
将 四 个 谱系 图 画 在 一 个 图 上 . 
以 下 是 R 语句 (程序 名 : exam0806 .BR) 
#### 输入 数据 ， 生 成 距离 结构 
x<-c(1,2,6,8,11); dim(x)<-c(5,1); d«-dist(x) 
HHH 生成 系统 聚 类 
hci<-hclust(d, "single"); hc2«-hclust(d, "complete") 




















hc3«-hclust(d, "median"); hc4«-hclust(d, "mcquitty") 
#### 绘 出 所 有 树 形 结构 图 并 以 2x2 的 形式 绘 在 一 张 图 上 
opar <- par(mfrow = c(2, 2)) 

plot(hci,hang--1); plot(hc2,hang--1) 
plot(hc3,hang--1); plot(hc4,hang--1) 











par (opar) 
画 出 的 图 形 如 图 8.3 所 示 . 
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图 8.3: 四 种 不 同 距 离 的 谱系 图 


与 绘 谱系 图 有 关 的 函数 还 有 as.dendrogram(), 其 意思 是 将 系统 聚 类 得 到 的 
对 象 强制 为 谱系 图 ， 它 的 使 用 格式 为 
as.dendrogram(object, hang = -1, ...) 
其 中 object 是 由 hclust 得 到 的 对 象 ， 在 此 时 ， plotO 函数 的 用 法 为 
plot(x, type = c("rectangle", "triangle"), 
center - FALSE, 


edge.root = is.leaf(x) || 'is.null(attr(x,"edgetext")), 
nodePar = NULL, edgePar = listO, 

leaflab = c("perpendicular", "textlike", "none"), 

dLeaf - NULL, xlab - "", ylab - "", xaxt - "n", yaxt - "s", 


horiz = FALSE, frame.plot = FALSE, ...) 
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其 中 x 是 由 dendrogram 得 到 的 对 象 ，type 表示 画 谱系 图 的 类 型 ，"rectangle" 
是 矩形 (AE), "triangle" 为 三 角形 . horiz 是 逻辑 变量 ， 当 horiz=TRUE 
时 ， 表 示 谱 系 图 水 平 放置 .其 他 参数 见 在 线 帮助 . 
以 下 命令 和 图 形 ( 见 图 8.4) 可 以 帮助 我 们 理解 有 关 参 数 的 意义 . 
dendi«-as.dendrogram(hci) 





opar <- par(mfrow = c(2, 2),mar = c(4,3,1,2)) 

plot (dend1) 

plot(dendi1, nodePar-list(pch = c(1,NA), cex-0.8, lab.cex-0.8), 
type = "t", center-TRUE) 
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图 8.4: 不 同 参数 下 的 谱系 图 


plot(dendi, edgePar-list(col = 1:2, lty = 2:3), 
dLeaf-1, edge.root - TRUE) 
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plot(dendi1, nodePar-list(pch = 2:1, cex-.4*2:1, col-2:3), 
horiz-TRUE) 
par (opar) 
例 8.7 对 305 名 女 中 学 生 测 量 八 个 体型 指标 ， 相 应 的 相关 矩阵 如 表 8.5 Pros. 
将 相关 系数 看 成 相似 系数 ， 定 义 距 离 为 


dij =] — rij. 
用 最 长 距离 法 作 系 统 分 析 . 


表 8.5: 各 对 变量 之 间 的 相关 系数 
身高 ”手臂 长 ”上肢 长 TRK 体重 AEM 胸围 MU 


Tı T2 T3 T4 T5 T6 TT T8 
身高 | 1.000 
手 壁 长 | 0.846 — 1.000 
上 肢 长 | 0.805 0.881 1.000 
下 肢 长 | 0.859 0.826 0.801 1.000 


体重 
2j B) 
胸围 


胸 宽 


0.473 0.376 0.380 0.436 1.000 

0.398 | 0.326 | 0.319 0.329 0.762 1.000 

0.301 0.277 0.237 . 0.327 0.730 0.583 1.000 
0.382 0.277 | 0.345 0.365 0.629 0.577 0.539 1.000 





解 ， 输入 相关 系数 矩阵 . YEfENHÉARÉSd B, MaA yR hclustO, 
as.dendrogram() 和 plotO. 为 了 使 谱系 图 画 的 更 好 看 ， 还 增加 一 个 自 编 的 函 
数 . 下 面 是 相应 的 R 程序 (程序 名 :  exam0807.R) 


#### 输入 相关 乱 阵 


x<-c(1.000, 0.846, 0.805, 0.859, 0.473, 0.398, 0.301, 0.382, 
0.846, 1.000, 0.881, 0.826, 0.376, 0.326, 0.277, 0.277, 
0.805, 0.881, 1.000, 0.801, 0.380, 0.319, 0.237, 0.345, 
0.859, 0.826, 0.801, 1.000, 0.436, 0.329, 0.327, 0.365, 
0.473, 0.376, 0.380, 0.436, 1.000, 0.762, 0.730, 0.629, 
0.398, 0.326, 0.319, 0.329, 0.762, 1.000, 0.583, 0.577, 
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0.301, 0.277, 0.237, 0.327, 0.730, 0.583, 1.000, 0.539, 
0.382, 0.415, 0.345, 0.365, 0.629, 0.577, 0.539, 1.000) 
names<-c(" 身高 "," AH St ERK S" TEK SI GRE ISI REI ", 
T EERS GEO 
r<-matrix(x, nrow=8, dimnames=list (names, names)) 
HHEH MERERAINA, 
iHHHE 函数 as.distO 的 作用 是 将 普通 和 矩阵 转化 为 聚 类 分 析 用 的 距离 结构 . 
d«-as.dist(1-r); hc«-hclust(d); dend«-as.dendrogram(hc) 
WR 写 一 段 小 程序 ， 其 目的 是 在 绘图 命令 中 调用 它 ， 使 谱系 图 更 好 看 ， 
nP<-list(col=3:2, cex=c(2.0, 0.75), pch= 21:22, 
bg= c("light blue", "pink"), 
lab.cex = 1.0, lab.col = "tomato") 









































addE <- function(n){ 
if(!is.leaf(n)){ 
attr(n,"edgePar")«-list(p.col-"plum") 


attr(n,"edgetext")«-paste(attr(n,"members"),"members") 


} 

HBHHE 画 出 谱系 图 . 

de <- dendrapply(dend, addE); plot(de, nodePar- nP) 
所 绘图 形 如 图 8.5 Brzn. 

从 上 面 的 谱系 图 (图 8.5) 容易 看 出 ， 变 量 zz( 手 臂 长 ) 与 za( 上 肢 长 ) 最 先 合 
并 成 一 类 . 接 下 来 是 变量 zl( 号 高 ) 与 xa PUE) 合并 成 一 类 . 再 合并 就 是 将 新 
得 到 的 两 类 合并 成 一 类 (可 以 称 为 “长 ”类 ). 后 面 要 合并 的 是 xs (体重 ) 与 r 
围 ). 再 合并 就 是 将 z7( 胸 围 ) 加 到 新 类 中 ， 再 加 就 是 zg( 胸 宽 ), 最 后 合并 为 一 类 . 


8. 类 个 数 的 确定 


在 聚 类 过 程 中 类 的 个 数 如 何 确定 才 是 适宜 的 呢 ? 这 是 一 个 十 分 困难 的 问题 ， 
至 今 仍 未 找到 令 人 满意 的 方法 , 但 这 又 是 一 个 不 可 回避 的 问题 . 目前 基本 的 方法 
有 三 种 . 
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图 8.5: 八 个 体型 指标 的 谱系 图 


(1) 给 定 一 个 立 值 .通过 观察 谱系 图 ， 给 出 一 个 你 认为 的 阐 值 T, 要 求 类 与 
类 之 间 的 距离 要 大 于 7. 

(2) 观测 样本 的 散 点 图 ， 对 于 二 维 或 三 维 变 量 的 样本 ， 可 以 通过 观测 数据 的 
散 点 图 来 确定 类 的 个 数 . 

(3) 使 用 统计 量 . 通过 一 些 统计 量 来 确定 类 的 个 数 . 

(4) 根据 谱系 图 确定 分 类 个 数 的 准则 . 

Bemirmen (1972) 提出 了 根据 研究 目的 来 确定 适当 的 分 类 方法 ， 并 提出 一 些 
根据 谱系 图 来 分 析 的 准则 : 
准则 A 各 类 重心 的 距离 必须 很 大 ; 
准则 B 确定 的 类 中 ， 各 类 所 包含 的 元 素 都 不 要 太 多 ; 
准则 C 类 的 个 数 必须 符合 实用 目的 ; 
准则 D 阁 采 用 几 种 不 同 的 聚 类 方法 处 理 ， 则 在 各 自 的 聚 类 图 中 应 发 现 相 同 的 


类 . 





E R 软件 中 ， 与 确定 类 的 个 数 有 关 的 函数 是 rect.hclustO 函数 ， 它 的 本 
质 是 由 给 定 类 的 个 数 或 给 定 阀 值 来 确定 聚 类 的 情况 ， 其 使 用 格式 为 
rect.hclust(tree, k = NULL, which = NULL, x = NULL, h = NULL, 
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border = 2, cluster = NULL) 

其 中 tree 是 由 hclust 生成 的 结构 . k 是 类 的 个 数 . hh 是 谱系 图 中 的 益 值 ， 要 
求 分 成 的 各 类 的 距离 大 于 h. border 是 数 或 品 量 ， 标 明 算 形 框 的 颜色 . 

对 于 八 个 体型 指标 的 聚 类 分 析 中 ( 见 例 8.7), 将 变量 分 为 三 类 ， 即 = 3, 其 
程序 和 计算 结果 如 下 : 

plclust(hc, hang--1); re<-rect.hclust(hc, k-3) 

得 到 身高 (1), 手臂 长 (za), EEK (x3), 下 肢 长 (v4) 分 为 第 一 类 ， 胸 宽 (va) 为 
第 二 类 ， 体 重 (as), ME (x6), 胸围 (x7) 分 为 第 三 类 . 其 图 形 如 图 8.6 所 示 . 
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图 8.6: 八 个 体型 指标 的 谱系 图 和 聚 类 情况 


在 上 述 程序 中 ，p1lclust() 函数 是 另 一 种 绘 谱系 图 的 函数 ， 与 plot () 函数 
所 画图 形 略 有 差别 ， 其 具体 使 用 格式 如 下 : 
plclust(tree, hang-0.1, unit-FALSE, level-FALSE, hmin-0, 
square-TRUE, labels-NULL, plot. - TRUE, 
axes = TRUE, frame.plot = FALSE, ann = TRUE, 
main = "", sub = NULL, xlab-NULL, ylab-"Height") 
中 tree 是 由 hclust () 函数 生成 的 对 象 . 其 他 参数 与 plot () 函数 中 的 参数 相 
同 . 


9. 实例 


8.2 聚 类 分 析 


下 面 用 一 个 具体 的 实例 来 总 结 前 面 介绍 的 聚 类 分 析 的 方法 . 
例 8.8 表 8.6 列 出 了 1999 年 全 国 31 个 省 、 市 、 自 治 区 的 城镇 居民 家 庭 平 均 每 
人 全 年 消费 性 支出 的 入 个 主要 指标 (变量 ) 数据 ， 这 八 个 变量 是 
2Z6 一 娱乐 教育 文化 服务 


T1 一 食品 
Z2 一 衣着 


T4 


X5 一 交通 与 通讯 
X3 一 家 庭 设 备用 品 及 服务 


一 医疗 保健 


XT 


一 居住 


Tg 一 杂项 商品 和 服务 
分 别 用 最 长 距离 法 、 类 平均 法 、 重 心 法 和 Ward 方法 对 各 地 区 作 聚 类 分 析 . 


表 8.6: 31 个 省 、 市 、 自 治 区 消费 性 支出 数据 


Tı 
2959.19 
2459.77 
1495.63 
1046.33 
1303.97 
1730.84 
1561.86 
1410.11 
3712.31 
2207.58 
2629.16 
1844.78 
2709.46 
1563.78 
1675.75 
1427.65 
1783.43 





T2 
730.79 
495.47 
515.90 
477.77 
524.29 
553.90 
492.42 
510.71 
550.74 
449.37 
557.32 
430.29 
428.11 
303.65 
613.32 
431.79 
511.88 


T3 
749.41 
697.33 
362.37 
290.15 
254.83 
246.91 
200.49 
211.88 
893.37 
572.40 
689.73 
271.28 
334.12 
233.81 
550.71 
288.55 
282.84 


T4 
513.34 
302.87 
285.32 
208.57 
192.17 
279.81 
218.36 
277.11 
346.93 
211.92 
435.69 
126.33 
160.77 
107.90 
219.79 
208.14 
201.01 


T5 
467.87 
284.19 
272.95 
201.50 
249.81 
239.18 
220.69 
224.65 
527.00 
302.09 
514.66 
250.56 
405.14 
209.70 
272.59 
217.00 
237.60 


T6 
1141.82 
735.97 
540.58 
414.72 
463.09 
445.20 
459.62 
376.82 
1034.98 
585.23 
795.87 
513.18 
461.67 
393.99 
599.43 
337.76 
617.74 


T7 
478.42 
570.84 
364.91 
281.84 
287.87 
330.24 
360.48 
317.61 
720.33 
429.77 
575.76 
314.00 
535.13 
509.39 
371.62 
421.31 
523.52 


Tg 
457.64 
305.08 
188.63 
212.10 
192.96 
163.86 
147.76 
152.85 
462.03 
252.54 
323.36 
151.39 
232.29 
160.12 
211.84 
165.32 
182.52 
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表 8.6( 继 ): 31 个 省 、 市 、 自 治 区 消费 性 支出 数据 
Ti T2 T3 T4 T5 T6 TT Ts 
1942.23 512.27 401.39 206.06 321.29 697.22 492.60 226.45 
3055.17 353.23 564.56 356.27 811.88 873.06 1082.82 420.81 
2033.87 300.82 338.65 157.78 329.06 6021.74 587.02 218.27 
2057.86 186.44 202.72 171.79 329.65 477.17 312.93 279.19 
2303.29 589.99 516.21 236.55 403.92 730.05 438.41 225.80 
1974.28 507.76 344.79 203.21 240.24 575.10 430.36 223.46 
1673.82 437.75 461.61 153.32 254.66 445.59 346.11 191.48 
2194.25 537.01 369.07 249.54 290.84 561.91 407.70 330.95 
2646.61 839.70 204.44 209.11 379.30 371.04 269.59 389.33 
1472.95 390.89 447.95 259.51 230.61 490.90 469.10 191.34 
1525.57 472.98 328.90 219.86 206.65 449.69 249.66 228.19 
1654.69 437.77 258.18 303.00 244.93 479.53 288.56 2306.51 
1375.46 480.99 273.84 317.32 251.08 424.75 228.73 195.93 
1608.82 536.05 432.46 235.82 250.28 541.30 344.85 214.40 


湖南 
广东 
广西 
海南 
重庆 
四 川 
贵州 
云南 
西藏 
陕西 
甘肃 


E» 
H 


宁夏 
新 疆 


HE 先 输 入 数据 ， 在 作 聚 类 分 析 之 前 ， 为 同等 地 对 竺 每 个 变量 ， 消 除数 据 在 
数量 级 的 影响 ， 对 数据 作 标准 化 . 然后 , 用 hclust () 作 聚 类 分 析 , 用 plotO K 
数 画 出 谱系 图 ， 最 后 用 rect.hclustO 将 地 区 分 成 5 类 . 

下 面 是 相应 的 R 程序 (程序 名 : ”exam0808.R). 

#### 用 数据 框 形式 输入 数据 
X«-data.frame( 
x1-2c(2959.19, 2459.77, 1495.63, 1046.33, 1303.97, 1730.84, 
1561.86, 1410.11, 3712.31, 2207.58, 2629.16, 1844.78, 
2709.46, 1563.78, 1675.75, 1427.65, 1783.43, 1942.23, 
3055.17, 2033.87, 2057.86, 2303.29, 1974.28, 1673.82, 
2194.25, 2646.61, 1472.95, 1525.57, 1654.69, 1375.46, 
1608.82), 
x2=c (730.79, 495.47, 515.90, 477.77, 524.29, 553.90, 492.42, 
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510.71, 550.74, 449.37, 557.32, 430.29, 428.11, 303.65, 
613.32, 431.79, 511.88, 512.27, 353.23, 300.82, 186.44, 
589.99, 507.76, 437.75, 537.01, 839.70, 390.89, 472.98, 
437.77, 480.99, 536.05), 

x3=c (749.41, 697.33, 362.37, 290.15, 254.83, 246.91, 200.49, 
211.88, 893.37, 572.40, 689.73, 271.28, 334.12, 233.81, 
550.71, 288.55, 282.84, 401.39, 564.56, 338.65, 202.72, 
516.21, 344.79, 461.61, 369.07, 204.44, 447.95, 328.90, 
258.78, 273.84, 432.46), 

x4=c (513.34, 302.87, 285.32, 208.57, 192.17, 219.81, 218.36; 
277.11, 346.93, 211.92, 435.69, 126.33, 160.77, 107.90, 
219.79, 208.14, 201.01, 206.06, 356.27, 157.78, 171.79, 
236.55, 203.21, 153.32, 249.54, 209.11, 259.51, 219.86, 
303.00, 317.32, 235.82), 

x5=c (467.87, 284.19, 272.95, 201.50, 249.81, 239.18, 220.69, 
224.65, 527.00, 302.09, 514.66, 250.56, 405.14, 209.70, 
272.59, 217.00, 237.60, 321.29, 811.88, 329.06, 329.65, 
403.92, 240.24, 254.66, 290.84, 379.30, 230.61, 206.65, 
244.93, 251.08, 250.28), 

x6-c(1141.82, 735.97, 540.58, 414.72, 463.09, 445.20, 459.62, 
376.82, 1034.98, 585.23, 795.87, 513.18, 461.67, 393.99, 
599.43, 337.76, 617.74, 697.22, 873.06, 621.74, 477.17, 
730.05, 575.10, 445.59, 561.91, 371.04, 490.90, 449.69, 
479.53, 424.75, 541.30), 

x7=c (478.42, 570.84, 364.91, 281.84, 287.87, 330.24, 360.48, 
317.61, 720.33, 429.77, 575.76, 314.00, 535.13, 509.39, 
371.62, 421.31, 523.52, 492.60, 1082.82, 587.02, 312.93, 
438.41, 430.36, 346.11, 407.70, 269.59, 469.10, 249.66, 
288.56, 228.73, 344.85), 

x8=c (457.64, 305.08, 188.63, 212.10, 192.96, 163.86, 147.76, 
152.85, 462.03, 252.54, 323.36, 151.39, 232.29, 160.12, 
211.84, 165.32, 182.52, 226.45, 420.81, 218.27, 279.19, 
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225.80, 223.46, 191.48, 330.95, 389.33, 191.34, 228.19, 
236.51, 195.93, 214.40), 


row.names-c(" 北京 "，" 天 津 "，" 河北 "，" 山西 "," 内 蒙古 "， 
"辽宁 "，" 吉林 ",，" 黑龙 江 "，" 上 海 "，" 江苏 ",，" 浙江 "， 
"安徽 "，" 福建 "，" 江西 "，" 山东 ",，" 河南 "，" 湖北 "， 
"WE", "广东 "， "广西 "," 海南 "，" 重庆 "，" 四 川 "， 
"宁夏 "，" 新 疆 ") 

) 

#### 生成 距离 结构 ， 作 系统 聚 类 

d <- dist(scale(X)) 


hcl <- hclust(d) ; hc2 <- hclust(d, "average") 
hc3 <- hclust(d, "centroid"); hc4 <- hclust(d, "ward") 


#### 绘 出 谱系 图 和 聚 类 情况 (最 长 距离 法 和 类 平均 法 ) 
opar<-par (mfrow=c(2,1), mar=c(5.2,4,0,0)) 











plclust(hci, hang--1); rei«-rect.hclust(hci, k=5, border-"red") 
plclust(hc2, hang--1); re2«-rect.hclust(hc2, k-5, border-"red") 
par (opar) 
其 结果 如 图 8.7 所 示 . 
按照 最 长 距离 法 得 到 的 五 类 分 别 是 : 
第 一 类 :西藏 
第 二 类 : 河北 、 山 西 、 和 内蒙古、 辽宁、 吉林、 四 龙 江 、 江 苏 、 安 徽 、 福 建 、 江 西 、 
山东 、 河 南 、 湖 北 、 湖 南 、 广 西 、 海 南 、 重 庆 、 四 川 、 贵 州 、 云 南 、 陕 西 、 甘 
肃 、 青 海 、 宁 夏 、 新 疆 
第 三 类 : 广东 
第 四 类 天津、 浙江 
PAX: 北京、 上海 
按照 类 平均 法 得 到 的 五 类 分 别 是 : 
第 一 类 :西藏 








8.2 HEAT 489 


















































oo 
* deg rm er rmm 
E e 
o 2SCCGCcuG22g4co0ooDo2ccgcog 器 
D RE ke No ANO) 本 EcoD5505E0S e 
Í LCZ5PZOcCtoLGS2Ss05o0z2z223900 mgo5dg5L 
aq g.5g9gSgccc ODDS S2IAK&OI2 之 三 
E 3IL-25Ic-Oc9cc gocsSsor-oc-c Om c 
O- 5 o ozOÓ 5So5-— os KEES c 
= oc -c N 75) 
[5] do CD 
E 
Province 
hclust (*, "complete") 
c 
中 I 
soo [| m [ r4 A r T r 
D SX Cu cCcmaoecogso-42quu2v25cc Oo 
g 3555555888EaE&Ex655 g 
I coccz5229oScvt Ct oZ. ® 
8 3553SEESODP2SSNDE2685ESG” 5 
© E I gei EET o 
54 Scr-Qc-£'^52-20c-901 qg o 
GO oS x O02 o2 j S 
o o : 














Province 
hclust (*, "average") 


图 8.7: 消费 性 支出 数据 的 谱系 图 和 聚 类 结果 (1) 


第 二 类 ， 天津、 河北 、 山 西 、 内 蒙古 、 辽 宁 、 吉 林 、 黑 龙 江 、 江 苏 、 安 徽 、 福 建 、 
江西 、 山 东 、 河 南 、 湖 北 、 湖 南 、 广 西 、 海 南 、 和 重庆、 四川、 贵州、 云南 、 陕 
西 、 甘 肃 、 青 海 、 宁 夏 、 新 疆 

第 三 类 : 广东 

第 四 类 :上海 

第 五 类 ， 北京、 浙江 


#### 绘 出 谱系 图 和 聚 类 情况 (重心 法 和 Ward 法 ) 














opar<-par (mfrow=c(2,1), mar=c(5.2,4,0,0)) 
plclust(hc3,hang--1); re3<-rect.hclust(hc3,k=5,border="red") 
plclust (hc4,hang=-1); re4<-rect.hclust(hc4,k=5,border="red") 
par (opar) 
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第 二 类 ， 西藏 
第 三 类 : 天津、 河北 、 江 苏 、 山 东 、 湖 北 、 湖 南 、 重 庆 、 四 川 、 云 南 、 新 弓 
第 四 类 : ， 山西、 内蒙古、 辽宁、 吉林 、 黑 龙 江 、 甘 肃 、 青 海 、 宁 夏 
第 五 类 : 安徽、 福建 、 江 西 、 河 南 、 广 西 、 海 南 、 贵 州 、 陕 西 
四 种 方法 得 到 的 类 有 的 是 相同 的 ， 有 的 是 不 相同 的 ， 可 以 根据 具体 的 数据 与 
背景 再 进一步 确定 认同 哪 种 聚 类 是 较为 合理 的 . 








8.2.3 ”动态 聚 类 法 


系统 聚 类 法 一 次 形成 类 以 后 就 不 能 改变 , 这 就 要 求 一 次 分 类 分 得 比较 准确 ， 
对 分 类 的 方法 提出 较 高 的 要 求 , 相应 的 计算 量 自然 也 较 大 . 如 Q 型 系统 聚 类 法 ， 
聚 类 的 过 程 是 在 样本 间距 离 矩 阵 的 基础 上 进行 ， 当 样本 容量 很 大 时 ， 需 要 占据 
足够 大 的 计算 机 内 存 ， 而 且 在 并 类 过 程 中 ， 需 要 将 每 类 样本 和 其 他 样本 间 的 距离 
逐一 加 以 比较 ， 以 决定 应 合并 的 类 别 ,需要 较 长 的 计算 时 间 ， 所 以 对 于 大 样本 问 
题 ， Q 型 系统 聚 类 法 可 能 会 因 计 算 机 内 存 或 计算 时 间 的 限制 而 无 法 进行 计算 ， 
这 给 应 用 带 来 一 定 的 不 便 . 基于 这 种 情况 ， 产 生 了 动态 聚 类 ， 即 动态 聚 类 法 . 

动态 聚 类 又 称 为 逐步 聚 类 法 ， 其 基本 思想 是 ， 开 始 先 粗略 地 分 一 下 类 ， 然 后 
按照 某 种 最 优 原则 修改 不 合理 的 分 类 ， 直至 类 分 得 比较 合理 为 止 , 这 样 就 形成 一 
个 最 终 的 分 类 结果 . 这 种 方法 具有 计算 量 较 小 , 占 计 算 机 内 存 较 少 和 方法 简单 的 
优点 ， 适 用 于 大 样本 的 Q 型 聚 类 分 析 . 

关于 动态 聚 类 法 的 算法 这 里 就 不 作 介绍 了 ， 任 何 一 本 《多 元 分 析 》 的 教科 
书 ， 均 有 此 方面 的 内 容 ， 如 果 需 要 的 话 ， 读 者 可 以 看 这 方面 的 参考 书 . 这 里 介绍 
用 于 动态 聚 类 的 R 函数 一 kmeansO 函数 . 

kmeans() 函数 采用 的 是 K- 均值 方法 , 是 采用 逐个 修改 方法 , 最早 由 Mac- 
Queen 在 1967 年 提出 来 ， 随 后 许多 人 对 此 作 了 许多 改进 . kmeans() 函数 的 使 
用 格式 为 


kmeans(x, centers, iter.max = 10, nstart = 1, 





algorithm - c("Hartigan-Wong", "Lloyd", 
"Forgy", "MacQueen")) 
其 中 x 是 由 数据 构成 的 窍 阵 或 数据 框 ， centers 是 聚 类 的 个 数 或 者 是 初始 类 的 
rub.  iter.max WEKKA ( 缺 省 值 为 10). nstart 随机 集合 的 个 数 ( 当 
centers 为 聚 类 的 个 数 时 )，algorithm 为 动态 聚 类 的 算法 ( 缺 省 值 Hartigan- 
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Wong 方法 ). 
例 8.9 K— 均值 方法 ( kmeans() 函数 ) 对 例 8.8 给 出 的 31 个 省 、 市 、 自 治 区 
的 消费 水 平 进行 聚 类 分 析 . 

解 : 与 例 8.8 一 样 ， 为 消除 数据 数量 级 的 影响 ， 移 对 数据 作 标 准 化 处 理 ， 然 
后 再 用 kmeans() 函数 作 动 态 聚 类 ， 为 与 前 面 的 方法 作 比较 ， 类 的 个 数 选 择 为 5. 
算法 选择 "Hartigan-Wong", 即 缺 省 状态 . 

km <- kmeans(scale(X), 5, nstart = 20); km 
得 到 
K-means clustering with 5 clusters of sizes 1, 1, 16, 10, 3 
Cluster means : 
x1 x2 x3 x4 xb 

1 1.8042004 -1.12776493 0.9368961 1.2959544 3.90904835 
2 1.1255255 2.91079330 -1.0645632 -0.4082114  0.53291392 
3 -0.7008593 -0.33291790 -0.5450901 -0.2500165 -0.54749319 
4 0.2646918 0.04585518 0.2487958 -0.3405821 -0.01812541 
5 1.8790347 1.02836873 2.1203833 2.1727806 1.49972764 

x6 Xí X8 
1.6014419 3.8803141 2.01876530 
-1.0476079 -0.9562089 1.66126641 
.6131804 -0.5420723 -0.57966702 
0.2587437 0.2874133 -0.02413414 
2.2232050 0.9583064 1.94532737 


Clustering vector: 


北京 天 津 河北 山西 内 蒙古 辽宁 吉林 黑龙 江 上 海 江苏 浙江 


a 5 0o N e 
| 
eo 


5 4 y 3 3 3 3 3 5. d 5 
安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 

3 A F d 3 4 4 1 4 3 4 
四 川 RI 云南 西藏 陕西 甘肃 育 海 宁夏 《新疆 

4c $n LO 03 3 & 3 3 3 


Within cluster sum of squares by cluster: 


习题 入 493 


[1] 0.00000 0.00000 30.14432 22.12662 10.19134 

Available components: 

[1] "cluster" "centers" "withinss" "size" 

这 里 size 表示 各 类 的 个 数 ， means 表示 各 类 的 均值 ， Clustering 表示 聚 类 后 

的 分 类 情况 . 
为 便于 看 出 聚 类 后 的 分 类 情况 ， 用 sort() 函数 (sort (km$cluster)) 对 分 

类 起 先 情况 排序 ， 并 整理 得 到 

第 一 类 : 广东 

第 二 类 : 西藏 

第 三 类 河北、 山西 、 内 蒙古 、 辽 宁 、 吉 林 、 黑 龙 江 、 安 徽 、 江 西 、 河 南 、 海 南 、 
贵州 、 陕 西 、 甘 肃 、 青 海 、 宁 夏 、 新 疆 

第 四 类 : 天津、 江苏 、 福 建 、 山 东 、 湖 北 、 湖 南 、 广 西 、 重 庆 、 四 川 、 云 南 

第 五 类 : 北京、 上 海 、 浙 江 








习题 八 


8.1 根据 经 验 ， 今天 与 昨天 的 湿度 差 X 及 今天 的 压 温 差 ( 气压 与 温度 之 差 ) 
d 8.7: 湿度 差 与 压 温差 数据 


非 雨 天 
XX1 (湿度 差 ) X3(&i& E) 
一 1.9 0.2 
一 6.9 7.5 
5.2 14.6 
5.0 8.3 
7.3 0.8 
6.8 4.3 
0.9 10.9 
一 12.5 13.1 
1.5 12.8 
3.8 10.0 
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X 是 预报 明天 下 雨 或 不 下 雨 的 两 个 重要 因素 . 现 有 一 批 已 收集 的 数据 资料 , 如 表 
8.7 所 示 . 今 测 得 v, = 8.1, za = 2.0, 试问 预报 明天 下 雨 还 是 预报 明天 不 下 雨 ? 
分 别 用 距离 判别 、 Bayes 判别 (考虑 方差 相同 与 方差 不 同 两 种 情况 ) 和 Fisher 
判别 来 得 到 你 所 需要 的 结论 . 

8.2 某 医院 研究 心电图 指标 对 健康 人 ( 了 )、 硬 化 症 患 者 (ID ) 和 冠 心病 患者 
C II ) 的 鉴别 能 力 ， 现 获得 训练 样本 如 表 8.8 所 示 . 试用 距离 判别 (考虑 方差 
相同 与 方差 不 同 两 种 情况 )、 Bayes 判别 (考虑 方差 相同 与 方差 不 同 两 种 情况 ， 
且 先 验 概率 为 11/23, 7/23, 5/23 ) 对 数据 进行 分 析 . 


表 8.8: 3 类 23 人 的 心电图 指标 数据 


B d 
1 7.36 
2 5.99 
3 6.11 
4 4.35 
5 8.79 
6 8.53 
7 10.02 
8 9.79 
9 8.79 
10 8.53 
11 6.15 
12 II 8.49 
13 II 7.16 
14 II 9.43 
17 II 8.17 
17 II 9.67 
18 II 10.49 
19 IH 9.61 








T4 
15,72 
11.00 
11.19 

6.94 
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8.3 为 了 更 深入 地 了 解 我 国人 口 的 文化 程度 状况 ， 现 利用 1990 年 全 国人 中 普查 


数据 对 全 国 30 个 省 、 直 辖 市 、 自 治 区 进行 聚 类 分 析 . 原始 数据 如 表 8.9 所 示 ， 


K 8.9: 1990 年 全 国人 口 普查 文化 程序 人 中 比例 


地 区 | DXBZ CZBZ WMBZ 


北京 
天 津 
河北 


内 蒙古 


析 选 用 了 三 个 指标 : 


30.55 
29.38 
24.69 
29.24 
25.47 
32.32 
26.31 
28.46 
31.59 
26.43 
23.74 
19.97 
16.87 
18.84 
25.18 


8.70 
8.92 
15.21 
11.30 
15.39 
8.81 
10.49 
10.87 
11.04 
17.23 
17.46 
24.43 
15.63 
16.22 
16.87 





DXBZ 
0.85 
1.57 
1.14 
1.34 
0.79 
1.24 
0.96 
0.78 
0.81 
0.57 
1.67 
1.10 
1.49 
1.61 
1.85 


CZBZ 
26.55 
23.16 
22.57 
23.04 
19.14 
22.53 
21.65 
14.65 
13.85 

3.85 

24.36 
16.85 
17.76 
20.27 
20.66 


WMBZ 
16.15 
15.79 
12.10 
10.45 
10.61 
13.97 
16.24 
24.27 
25.44 
44.43 
17.62 
27.93 
27.70 
22.06 
12.75 


分 


(1) 大 学 以 上 文化 程度 的 人 口 占 全 部 人 口 的 比例 (DXBZ); 


(2) 初中 文化 程度 的 人 口 占 全 部 人 口 的 比例 (CZBZ); (3) 文盲 半 文 盲人 口 占 全 部 
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人 口 的 比例 (WMBZ) 分 别 用 来 反映 较 高 、 中 等 、 较 低 文 化 程度 人 口 的 状况 ， 
(1) 计算 样本 的 Euclide 距离 ， 分 别 用 最 长 距离 法 、 均 值 法 、 重 心 法 和 Ward 
法 作 聚 类 分 析 ， 并 画 出 相应 的 谱系 图 . 如 果 将 所 有 样本 分 为 4 类 ， 试 写 出 各 种 方 
法 的 分 类 结果 ; 
(2) 用 动态 聚 类 方法 ( 共 分 为 4 类 ), 给 出 相应 的 分 类 结果 . 
8.4 对 48 位 应 聘 者 数据 ( 见 第 三 章 例 3.17 中 的 表 3.5) 的 自 变 量 作 聚 类 分 析 ， 
选择 变量 的 相关 系数 作为 变量 间 的 相似 系数 (cij), 距离 定义 为 di; — 1— cij. 分 别 
用 最 长 距离 法 、 均 值 法 、 重 心 法 和 Ward 法 作 聚 类 分 析 ， 并 画 出 相应 的 谱系 图 . 
如 果 将 所 有 变量 分 为 5 类， 试 写 出 各 种 方法 的 分 类 结果 . 


第 九 章 ”应 用 多 元 分 析 (II) 


前 面 一 章 介绍 了 判别 分 析 和 聚 类 分 析 , 这 两 种 方法 均 是 处 理 数据 分 类 问题 . 
本 章 介绍 多 元 分 析 的 另 一 部 分 内 容 一 主 成 分 分 析 、 因 子 分 析 和 典型 相关 分 析 . 
这 三 种 方法 的 共同 点 是 对 数据 作 降 维 处 理 ， 从 数据 中 提取 某 些 公共 部 分 ， 然 后 这 
这 公共 部 分 进行 分 析 和 处 理 ， 得 到 我 们 需要 的 结论 . 

与 上 一 章 相 同 ， 本 章 的 重点 还 是 放 在 用 R 软件 来 进行 主 成 分 分 析 、 因 子 分 
析 和 典型 相关 分 析 ， 而 对 于 各 种 分 析 所 用 到 的 概念 只 作 简 单 介 绍 . 





9.1 ERDI 


主 成 分 分 析 (principal component analysis) 是 将 多 指标 化 为 少数 几 个 综合 指 
标的 一 种 统计 分 析 方 法 ， 是 由 Pearson(1901) 提出 ,后 来 被 Hotelling(1933) 发 展 
T. 主 成 分 分 析 是 一 种 通过 降 维 技术 把 多 个 变量 化 成 少数 几 个 主 成 分 的 方法 . 这 
些 主 成 分 能 够 发 映 原 始 变量 的 绝 大 部 分 信息 , 它们 通常 表示 为 原始 变量 的 线性 组 


A 
H. 


9.1.1 总 体 主 成 分 
1. 主 成 分 的 定义 与 导出 
WX 是 p AMEDEE, Ji u= E(X), X = Var(X). 考虑 如 下 线性 变换 


Zi =a? X 
Zə = a} X 
; i (9.1) 
Zy =K 
易 见 
Var(Z) = alXa, i= 1,2,...,%, (9.2) 
Cov(Z,Z; = aiXaj, 4j21,2,-»p i7] (9.3) 


我 们 希望 Z 方差 达到 最 大 ， 即 al 是 约束 优化 问题 
max a! Xa 


s.t. ala 1 
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的 解 . 因此 ,ai 是 民 最 大 特征 值 (不 妨 设 为 Xi) 的 特征 向 量 . 此 时 , P 2 = apX 为 
第 一 主 成 分 . 类 似 地 , 希望 Z 的 方差 达到 最 大 , 并 且 要 求 Cov(Zi, Z2) = of Xa» = 
0. 由 于 a 是 à 的 特征 向 量 ， 所 以 ， 选 择 的 a) 应 与 a; EX. 类似 于 前 面 的 推 
T, a dé XD 第 二 大 特征 值 (不 妨 设 为 和 2) 的 特征 向 量 ， 称 Za = aX 为 第 二 主 
成 分 . 
一 般 情况 . 对 于 协 方差 阵 Y. 存在 正 交 阵 Q, 将 它 化 为 对 角 阵 ， 即 
^ 
^2 


Q'xQ-A- | | (9.4) 
、 
EAA- >Ap 则 Q 的 第 i 列 就 对 应 于 ai 相应 的 Zi 为 第 i 主 成 分 . 
2. 主 成 分 的 性 质 
关于 主 成 分 有 如 下 性 质 : 
(1) 主 成 分 的 均值 和 协 方差 阵 . 
记 





Zi ^ 
Z2 和 2 


由 于 
Z=Q"X, (9.5) 


所 以 有 
= E(Z)- E(Q'X) = Q'E(X) = Q"u, 


V 
Var(Z) = QTVar(X)Q = QTXQ = A. 


(2) 主 成 分 的 总 方差 
由 于 
tr(A) = tr(QTEQ) = tr(29Q7) = tr(5), 
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所 以 ， 


p 


DN -X Ci 或 > Var(Z -X Var(X 


由 此 可 以 看 出 ， 主 成 分 分 析 把 p 个 原始 变量 Xi, Xo, Xp 的 总 方差 分 解 成 了 p 
个 不 相关 变量 Zi, 22,…, Zp 的 方差 之 和 . 

称 总 方差 中 第 d 个 主 成 分 Zi 的 比例 A i 入 为 主 成 分 Zi 的 贡献 率 ， 第 一 
主 成 分 Zi 的 贡献 率 最 大 ， 表明 它 解 释 原始 变量 Xi1X2 Xp 的 能 力 最 强 ， 而 
Zo. Za 也 的 解释 能 力 依次 递减 ， 主 成 分 分 析 的 目的 就 是 为 了 减少 变量 的 个 
数 ， 因 而 一 般 是 不 会 使 用 所 有 的 p 个 主 成 分 ， 忽略 一 些 有 较 小 方 老 的 主 成 分 ， 将 
不 会 给 总 方差 带 来 大 的 影响 ， 称 前 m 个 主 成 分 的 贡献 率 之 和 2 Xi/ LA 为 主 
成 分 ZZ: , Zm 的 累积 贡献 率 ， 它 表 明 Z1, 0 Zm 解释 X1, AX2 , Xp 
的 能 力 . 相对 于 p, 通常 取 较 小 的 m, 使 得 累积 贡献 率 达 到 一 个 较 高 的 百分比 (如 
8096 至 90%). 此 时 ， Zi, Z2, Zm 可 用 来 代替 Xi, Xo, Xp, 达到 降 维 的 目 
的 ， 而 信息 的 损失 却 不 多 . 

(3) 原始 变量 X; 与 主 成 分 Zi 之 间 的 相关 系数 . 

由 于 式 (9.5), 知 





ber (9.6) 
即 
Ai 三 011 十 gj2 十 .十 0ip2p， (9.7) 
所 以 ， 
Cov(X;, Zi) T Cov(qijZ;, Zi) = d Qji^is ji = 1,2, 3p (9.8) 
Cov(X;, Zj) LAN 


p(X;, Zi) T 一 二 ji j i= 1, 2,- SP (9.9) 


在 实际 应 用 中 ， 通 第 只 对 X; 5 Zi 的 相关 系数 感 兴 

(4) m 个 主 成 分 对 原始 变量 的 贡献 率 . 

前 面 提 到 的 累积 贡献 率 这 个 概念 度量 了 m 个 主 成 分 Zi, Za, ……， Zm 从 原始 
变量 Xi Xo, X, 中 提取 信息 的 多 少 ， 那 么 Zu Zo, s Zm 包含 有 Xl = 
1 2 ……2D) 的 多 少 信息 应 该 用 什么 指标 来 度量 呢 ? 这 个 指标 就 是 Xi 与 Z, Zo, 
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5 Zm 的 复 相关 系数 的 平方 ， 称 为 m 个 主 成 分 Zi, 22, tt, Zm 对 原始 变量 X; 


Pram Dp (= S A (9.10) 
4—1 i—l 


对 式 (9.7) 两 边 取 方 差 ， 得 到 





Ojj = dj) 十 gj2Xa b Boy. (9.11) 


由 于 gi dto q»-l io; 实际 上 是 入 ,和 2,…, Ap 的 加 权 平 均 . 
由 式 (9.10)- 式 (9.11), 可 以 得 到 Zi, Zo. Zp 对 X; 的 贡献 率 
p p 
Da DD A) — 9 Aes — 1. (9.12) 
PS ii 
(5) 原始 变量 对 主 成 分 的 影响 . 
式 (9.5) 也 可 以 表示 成 
Zi 一 01UX1 十 q2X2 十 :十 gmi 和 pi 
FK qj; 为 第 à 主 成 分 在 第 j 个 原始 变量 X; 上 的 载荷 ， 它 度量 了 X 对 2; 的 重要 
程度 . 
3. 从 相关 和 矩阵 出 发 求 主 成 分 


当 各 变量 的 单位 不 全 相同 ， 或 虽 单 位 相同 ， 但 变量 间 的 数值 大 小 相差 较 大 
时 ， 直 接 从 协 方差 阵 出 发 进行 主 成 分 分 析 就 显得 不 妥 . 为 了 使 主 成 分 分 析 能 
够 均等 的 对 竺 每 一 个 原始 变量 ,消除 由 于 单位 不 同时 可 能 带 来 的 影响 ,常常 将 原 
变量 作 标准 化 处 理 ， 即 令 








Xs d 
VOji 


显然 ，X* = (XY, 和 XY,…, 允 )” 的 方差 矩阵 就 是 X 的 相关 矩阵 R. 
从 相关 和 矩阵 R 出 发 导出 的 主 成 分 方法 与 从 协 方差 阵 2 出 发 的 导出 的 主 成 分 
方法 完全 类 似 ， 并 且 得 到 的 主 成 分 的 一 些 性 质 更 加 简洁 . 
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WAMAAP?20o02AD20 AHRR R E p ARIE, ala3 ea 为 
相应 的 单位 特征 向 量 ， 且 相互 正 交 ， 则 相应 的 p 个 主 成 分 为 


Z ew 1—1,2.---,p. 
4 Z* = (Zi, Z3, SEN Q* = (a1, a5, - Ea 于 是 

m QUT 
关于 相关 和 矩阵 RR 的 主 成 分 有 如 下 性 质 
(1) E(Z*) = 0, Var(Z*) = A 其 中 A* = diag(A1, Aj, XD). 

p 
(2) 2X =p. 
(3) 变量 X 与 主 成 分 Zi 之 间 的 相关 系数 
p(X}, Zi) = VA idji: j5i-l, 255 Pe 


jam = "A J Z) Yo 


B pro Sra j Zi) -Dl 


9.1.2 ”样本 主 成 分 


前 面 讨论 的 是 总 体 主 成 分 ， 而 在 实际 问题 中 ， 一 般 总 体 的 协 方差 阵 X 或 相 
KEKE R 是 未 知 的 ， 需要 通过 样本 来 估计 . 

设 XQ) = (Tr, Zi2 Zip) (k — 1,2, n) 为 来 自 总 体 X 的 样本 ， 记 样 
本 数据 矩阵 为 


T 
Xii X12 *** Tip Xa 


T 
Jap Tə ew Aes. ^o 


= (X1, X5, dd X 


Xni Xn2 ^"^* Tnp xt, 
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其 中 XG) 表示 样本 数据 矩阵 的 各 行 ，X; 表示 样本 数据 矩阵 的 各 列 . 所 以 , 样本 




















的 方差 矩阵 S 为 
1 n 
E * n— 1 (Xæ - X) (Xæ - X) = (si) oss 
k=1 
其 中 
A SG HE " 
A des 三 》 X= (282,77, 2,)7, 
Tcl 
1 - — = * " 
Sij = —4 2. (ri — 2) (nj — 23), 1,7 = 1,2,- -, p. 
k=1 
及 样本 的 相关 和 矩阵 R 为 
: * * T 
i = (ru) s 
k=1 
其 中 
& 000 |Zk1 — Tı Xk2 — T2 Tkp — Tp 
X) ES ; TS 
v 511 y 322 Spp 
Sij xa 
em VA $,j = 1,2, ) 也 
tjj 


1. 从 S 出 发 求 主 成 分 


WA AAA > 和 0 为 样本 协 方差 阵 5 的 特征 值 ，a1, az, 
应 的 单位 特征 向 量 ， 且 彼此 正 交 . 则 第 i 个 主 成 分 z= arr, i= 1,2,- 





x£ = (£1, £2, Tp) . S 
之 二 (z1, 22373 2 = (al， Q2) t, ap) x = Qs 


其 中 Q = (ai1, a2,… `, p) z (dij)pxp- 
下 面 构造 样本 主 成 分 ， 令 


Z= Q' Xa, 


`, 0p 为 相 
GP 其 中 
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因此 样本 主 成 分 为 
2 ZA) XAQ 
Pcr en € ee 2p - Zo P XQ -xQ 
no Fal `t Emp Zin) Xg 


= 区 au Xas,---, Xa] = [Zi 2 Zol 


其 中 Zo 表示 样本 主 成 分 的 各 行 ， 2; 表示 样本 主 成 分 的 各 列 ， 
对 于 样本 主 成 分 有 如 下 性 质 ; 
(1) Var(Z;) 二 7 了 二 二 2 
(2) Cov(Z;, Zj) =0, i,j e 3 ets qe. od ye: 
(3) 样本 总 方差 


p 


p 
) dcr» 


(4) X; 与 Zi 的 样本 相关 系数 
VN 


"Us Zi) m RUP 77 = 1,2,---,p. 
在 实际 应 用 中 ， 常 常 将 样本 数据 中 心 化 ， 这 不 影响 样本 协 方差 阵 S. 考虑 中 
LEGS PE 


(Xa) - X)* 
= Uses XT 
x 1X (Xo ) | 
(Xin) X)* 
其 中 = (1,1,…,1)7 e R^, 对 应 的 主 成 分 数据 为 

Zi 212 ''' Zip Zi (Xa) z X)'Q 
Z- 740 29 c Zp| Zi u (Xid =A X)Q 
Znl  £n2 ""''  Énp Zin) (Xin) m XY Q 


2. 从 RR 出 发 求 主 成 分 
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WAMPAAPAoe62AD200NRENXOBPE R ARER, al, a3, a5 为 
相应 的 单位 特征 向 量 ， 且 彼此 正 交 . 





A 
* 0g y* 
Zo =Q X(y 
其 中 @ = (atat, o,a), 因此 样本 主 成 分 为 
zii Zi2 Zip Züy. XY Q 
a a G amen 
= [X"aj, X"a5, Ey Xaj| = [Z1; Z3, YA Zn 


其 中 Zt 表示 样本 主 成 分 的 各 行 ， Z 表示 样本 主 成 分 的 各 列 . 
对 于 样本 主 成 分 有 如 下 性 质 : 
(1) Var(27) c Ai 7 = 1,2,- Da P- 
(2) Cov(Z?, Z5) — 0, à, j eae op i z j. 
(3) XX 21 
j=l 
(4) X 与 Zt 的 样本 相关 系数 
r(X5, Zi) 2 VA gj. j,i = 1,2,---,p. 
9.1.3 ”相关 的 R 函数 以 及 实例 
下 面 介 绍 与 主 成 分 分 析 有 关 的 函数 . 
1. princomp 函数 
作 主 成 分 分 析 最 主要 的 函数 是 princompO 函数 ， 其 使 用 格式 为 
princomp(formula, data = NULL, subset, na.action, ...) 


其 中 formula 是 没有 响应 变量 的 公式 (类 似 回归 分 析 、 方差 分 析 , 但 无 响应 变量 ). 
data 是 数据 框 (类 似 于 回归 分 析 、 方 差分 析 ). 或 者 


princomp(x, cor = FALSE, scores = TRUE, covmat = NULL, 








subset = rep(TRUE, nrow(as.matrix(x))), ...) 
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其 中 x 是 用 于 主 成 分 分 析 的 数据 ， 以 数值 害 阵 或 数据 框 的 形式 给 出 。 cor 是 逻 
辑 变量 ， 当 cor-TRUE 表示 用 样本 的 相关 算 阵 RE 作 主 成 分 分 析 ， 当 cor-FALSE 
( 缺 省 值 ) 表示 用 样本 的 协 方差 阵 S 作 主 成 分 分 析 . covmat 是 协 方差 阵 ， 如 果 
数据 不 用 x 提供 ， 可 由 协 方差 阵 提供 .其 他 参数 的 意义 见 在 线 帮 助 . 
prcompO 函数 的 意义 与 使 用 方法 与 princomp() 函数 相同 . 
2. summary 函数 
summary() 与 回归 分 析 中 的 用 法 相同 ， 其 目的 是 提取 主 成 分 的 信息 ， 其 作用 
格式 为 
summary(object, loadings = FALSE, cutoff = 0.1, ...) 
其 中 object 是 由 princompO 得 到 的 对 象 . loadings 是 逻辑 变量 , 当 loadings 
= TRUE 表示 显示 loadings 的 内 容 (具体 含义 在 下 面 的 loadingsO 函数 ), 当 
loadings = FALSE 则 不 显示 . 
3. loadings 函数 
loadings () 函数 是 显示 主 成 分 分 析 或 因子 分 析 中 loadings, ILAT 
分 析 ) 的 内 容 . 在 主 成 分 分 析 中 ， 该 内 容 实际 上 是 主 成 分 对 应 的 各 列 ， 即 前 面 分 
WREE Q. 在 因子 分 析 中 ， 其 内 容 就 是 载 答 因子 矩阵 loadingsO 函数 
的 使 用 格式 为 
loadings (x) 
其 中 x 是 由 函数 princomp() 或 factanal()( 见 因子 分 析 ) 得 到 的 对 象 . 
4. predict 函数 
predict() 函数 是 预测 主 成 分 的 值 (类 似 于 回归 分 析 中 的 使 用 方法 ), 其 使 用 
格式 为 
predict(object, newdata, ...) 
其 中 object 是 由 princompO 得 到 的 对 象 . newdata 是 由 预测 值 构 成 的 数据 
框 ， 当 newdata 缺 省 时 ， 预 测 已 有 数据 的 主 成 分 值 . 
5. screeplot 函数 
screeplot O Kžte mh dEATBUNEG EL, Hof RRTRSXON 


screeplot(x, npcs = min(10, length(x$sdev)), 
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type = c("barplot", "lines"), 

main = deparse(substitute(x)), ...) 
其 中 x 是 由 princompO 得 到 的 对 象 . npcs 是 画 出 的 主 成 分 的 个 数 . type 是 
描述 画 出 的 碎 石 图 的 类 型 ，"barplot" 是 直方 图 类 型 ， "lines" 是 直线 图 类 型 . 


6. biplot 函数 


biplotO 是 画 出 数据 关于 主 成 分 的 散 点 图 和 原 坐标 在 主 成 分 下 的 方向 ， 其 
使 用 格式 为 

biplot(x, choices = 1:2, scale = 1, pc.biplot = FALSE, ...) 
其 中 x 是 由 princomp() 得 到 的 对 象 . choices 是 选择 的 主 成 分 ， 缺 省 值 是 第 
1 、 第 2 主 成 分 .pc.biplot 是 逻辑 变量 ( 缺 省 值 为 FALSE), 当 pc. biplot-TRUE, 
用 Gabriel (1971) 提出 的 画图 方法 . 

7. 实例 

下 面 用 一 个 例子 说 明 前 面 介绍 的 函数 的 使 用 方法 . 

例 9.1 (中 学 生 身 体 四 项 指标 的 主 成 分 分 析 ) 

在 某 中 学 随机 抽取 某 年 级 30 名 学 生 ， 测 量 其 身高 (X1) 、 体 重 (X). ME 
(X3) 和 人 举 高 (X4), 数据 如 表 9.1 所 示 . 试 对 这 30 名 中 学 生 身 体 四 项 指标 数据 做 
主 成 分 分 析 . 

解 : 用 数据 框 的 形式 输入 数据 . 用 princomp() 作 主 成 分 分 析 ， 由 前 面 的 分 
析 ， 选 择 相关 矩阵 作 主 成 分 分 析 更 合理 ， 因 此 ， 这 里 选择 的 参数 是 cor=TRUE. 最 
后 用 summary 列 出 主 成 分 分 析 的 值 ， 这 里 选择 Loadings-TRUE. 以 下 是 相应 的 
程序 (程序 名 : ”exam0901.R). 

#### 用 数据 框 形式 输入 数据 
> student<-data.frame( 
X1=c(148，139，160，149，159，142，153，150，151，139， 
140, 161, 158, 140, 137, 152, 149, 145, 160, 156, 
151, 147, 157, 147, 157, 151, 144, 141, 139, 148), 
X2-c(41, 34, 49, 36, 45, 31, 43, 43, 42, 31, 
29, 47, 49, 33, 31, 35, 47, 35, 47, 44, 
42, 38, 39, 30, 48, 36, 36, 30, 32, 38), 
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表 9.1: 30 名 中 学 生 身 体 四 项 指标 数据 
X» Xs X4 


35 73 79 
AT 82 79 
35 70 TT 
AT 7A 8T 
44 78 85 
42 73 82 
38 73 78 
39 68 80 
30 65 75 
48 80 88 
36 74 80 
36 68 76 
30 67 76 
32 68 73 
38 70 78 





X3=c(72, 71, 77, 67, 80, 66, 76, 77, 77, 68, 
64, 78, 78, 67, 66, 73, 82, 70, 74, T8, 
73, 73, 68, 65, 80, 74, 68, 67, 68, 70), 
X4-c(78, 76, 86, 79, 86, 76, 83, 79, 80, 74, 
74, 84, 83, TT, T3, T9, T9, TT, 8T, 85, 
82, 78, 80, 75, 88, 80, 76, 76, 73, 78) 

) 


#### 作 主 成 分 分 析 ， 并 显示 分 析 结 果 


> student.pr <- princomp(student, cor = TRUE) 





> summary(student.pr, loadings-TRUE) 
Importance of components: 


Comp.1 Comp.2 Comp.3 Comp.4 
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Standard deviation 1.8817805 0.55980636 0.28179594 0.25711844 
Proportion of Variance 0.8852745 0.07834579 0.01985224 0.01652747 
Cumulative Proportion 0.8852745 0.96362029 0.98347253 1.00000000 


Loadings: 

Comp.1 Comp.2 Comp.3 Comp .4 
X1 -0.497 0.543 -0.450 0.506 
X2 -0.515 -0.210 -0.462 -0.691 
X3 -0.481 -0.725 0.175 0.461 
X4 -0.507 0.368 0.744 -0.232 

在 上 述 程序 中 , 语句 student.pr <- princomp(student, cor = TRUE) 可 
以 改 成 student.pr <- princomp(^X14X2-X3-X4, data=student, cor-TRUE), 
两 者 是 等 价 的 . 

summary () 函数 列 出 了 主 成 分 分 析 的 重要 信息 ， Standard deviation fT 
表示 的 是 主 成 分 的 标准 差 ， 即 主 成 分 的 方差 的 开 方 ， 也 就 是 相 就 的 特征 值 An 
Ao, Àa, A4 的 开 方 . Proportion of Variance 行 表示 的 是 方差 的 贡献 率 . 
Cumulative Proportion 行 表示 的 是 方差 的 累积 贡献 率 . 

由 于 在 summary 也 数 的 参数 中 选取 了 loadings=TRUE, 因此 列 出 了 loadings 
(载荷 ) 的 内 容 ， 它 实际 上 是 主 成 分 对 应 于 原始 变量 Xi, Xo, Xa, Xa 的 系数 ， 即 前 
面 介绍 的 矩阵 Q. 因此 ， 得 到 





Zt e —0.497X* — 0.515Xž — 0.481Xž — 0.507Xž, 
2 


由 于 前 两 个 主 成 分 的 累积 贡献 率 已 达到 9676, 另外 二 个 主 成 分 可 以 舍 去 ， 达 到 降 
维 的 目的 . 

第 1 主 成 分 对 应 系数 的 符号 都 相同 ， 其 值 在 0.5 左右 ， 它 反映 了 中 学 生 身 材 
魁梧 程度 : 号 体高 大 的 学 生 ， 他 的 4 个 部 分 的 尺寸 都 比较 大 ， 因 此 ， 第 1 主 成 分 
的 值 就 较 小 (因为 系数 均 为 负 值 ); 而 身材 矮小 的 学 生 ， 他 的 4 部 分 的 尺寸 都 比较 
小 , 因此, 第 1 主 成 分 绝对 值 就 较 大 . 我们 称 第 1 主 成 分 为 大 小 因子 . 第 2 ER 
分 是 高 度 与 围 度 的 差 , 第 2 主 成 分 值 大 的 学 生 表明 该 学 生 “ 细 高 ， 而 第 2 主 成 分 
值 越 小 的 学 生 表 明 该 学 生 “ 矮 胖 ", 因此 ， 称 第 2 主 成 分 为 体形 因子 . 


我 们 看 一 下 各 样本 的 主 成 分 的 值 (用 predictO 函数 ). 


HHHH VETMI 


> predict (student. 


o oo TO oo RA C N e 


=. e re H 
w N e O 


14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 


Comp. 1 


. 06990950 
. 59526340 
.84793151 
. 75996988 
. 73966777 
. 10583168 
.42105591 
. 82583977 
. 93464402 
. 36463820 


2.83741916 


.60851224 
. 44253342 


1.86630669 


.81347421 


0.06392983 


. 55561022 
.07392251 
.52174212 
.14072377 
.79624422 
.28708321 
.25151075 
.05706032 
.08596855 
.16367555 
.37265053 


9.1 主 成 


pr) 
Comp.2 


. 23813701 
.71847399 


0.38956679 
0.80604335 
0.01718087 
0.32284393 


.06053165 
. 78102576 
. 58469242 
. 36532199 
. 34875841 
.21278728 
. 16769496 
.05021384 
.31790107 
. 20718448 
. 170439674 
.06763418 


0.97274301 
0.02217881 


.16307887 
.35744666 
.25555188 
.78894494 
.05775318 


0.04317932 
0.02220972 


分 分 析 


Comp .3 


.35509248 
.32813232 
.09731731 
. 04945722 


0.36012615 
0.18600422 


. 21093321 
.27557798 
.08814136 


0.08840476 
0.03310423 


. 33398037 
.46918095 
.37720280 
.03291329 
0. 
-0. 
O. 


04334340 
33126406 
02283648 


0.12164633 
0.37410972 


.12781270 
-0. 
-0. 
-0. 

0. 


03962116 
55617325 
26552109 
62110421 


0.24481850 


7-0. 


23378320 


Comp.4 


. 266120139 
.118056646 
.279482487 
.162949298 
. 358653044 
. 036456084 
. 044223092 


0.057288572 
0.181037746 
0.045520127 


.031146930 
.210157574 
.162987830 
. 358821916 
. 222035112 


0.703533624 
0.007551879 
0.048606680 


.390667991 
.129548960 
. 294140762 


0.080991989 
0.109068939 


. 388088643 
. 218939612 
.560248997 
. 257399715 
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28 2.16097778 0.13733233 0.35589739 0.093123683 
29 2.40434827 -0.48613137 -0.16154441 -0.007914021 
30 0.50287468 0.14734317 -0.20590831 -0.122078819 

从 第 1 主 成 分 来 看 ， 较 小 的 几 个 值 是 25 号 样本 、 3 号 样本 和 5 号 样本 ， 
因此 说 明 这 几 个 学 生 身 材 魁 梧 ; 而 11 号 样本 、 15 号 样本 和 29 号 样本 的 的 值 较 
大 ， 说 明 这 几 个 学 生 身 材 瘦 小 . 

从 第 2 主 成 分 来 看 ， 较 大 的 几 个 值 是 23 号 样本 、 19 号 样本 和 4 号 样本 ， 
因此 说 明 这 几 个 学 生 属 于 “ 细 高 " 型 ; 而 17 号 样本 、 8 号 样本 和 2 号 样本 的 的 
值 较 小 ， 说 明 这 几 个 学 生 身 材 属于 “ 矮 胖 ”型 . 

画 出 主 成 分 的 的 碎 石 图 . 

> Screeplot(student.pr,type-"lines") 


参数 选择 的 直线 型 ， 其 图 形 如 图 9.1 所 示 . 











student.pr 
Wo 
eo 
$ o | 
9 wq 
© 
S 20. 
e 
LO 
2-4 
fpei ct 
o j| o o 
e I T T | 
Comp.1 Comp.2 Comp.3 Comp.4 


图 9.1: 30 名 中 学 生 吴 体 指标 数据 主 成 分 的 碎 石 图 


还 可 以 画 出 关于 第 1 主 成 分 和 第 2 主 成 分 样本 的 散 点 图 ， 其 图 形 如 图 9.2 所 
W 从 该 散 点 图 可 以 很 容易 看 出 ; 哪些 学 生 属于 高 大 魁梧 型 ， 如 25 号 学 生 ， 哪 
些 学 生 属 于 身材 瘦小 型 ， 如 11 号 或 15 号 ; 哪些 学 生 属 于 “ 细 高 型 ， 如 23 号 ， 
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Comp.2 








Comp.1 


图 9.2: 30 名 中 学 生 吴 体 指 标 数据 关于 第 1 主 成 分 和 第 2 主 成 分 的 散 点 图 


哪些 学 生 属 于 “ 矮 胖 ” 型 ， 如 17 号 , 还 有 哪些 学 生 属 于 正常 体形 ， 如 26 号 ， 等 
等 . 


9.1.4 ” 主 成 分 分 析 的 应 用 


这 一 小 节 讲 两 个 问题 作为 主 成 分 分 析 的 应 用 , 一 个 是 变量 分 类 问题 ， 男 一 个 
是 主 成 分 回归 问题 . 


1. 主 成 分 分 类 
f 9.2 对 128 个 成 年 男子 的 身材 进行 测量 , 每 人 各 测 得 16 项 指标 : 身高 (Xi). 
坐 高 (X2). MA (Xa). KÈ (X4) . E (Xs). TB (Xe) 、 手 长 (X7) 、 领 
E (Xa). WE] (Xo), AR (Xio), AA (Xun), AE (Xu), WK (Xis), M 
B] (Xu). EB (Xis) 和 腿 肚 (X25). 16 项 指标 的 相关 矩 阵 尺 如 表 9.2 所 示 (由 
于 相关 抠 阵 是 对 称 的 ， 只 给 出 下 三 角 部 分 ) RARER R 出 发 进行 主 成 分 分 
析 ， 对 16 项 指标 进行 分 类 ， 
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K 9.2: 16 项 身体 指标 数据 的 相关 和 矩阵 
Xi X2 Xs X4 Xs Xe Xr Xs Xə Xio Xu Xi2 X13 X14 Xis Xio 
1.00 
0.79 1.00 
0.36 0.31 1.00 
0.96 0.74 0.38 1.00 
0.89 0.58 0.31 0.90 1.00 
0.79 0.58 0.30 0.78 0.79 1.00 
0.76 0.55 0.35 0.75 0.74 0.73 1.00 
0.26 0.19 0.58 0.25 0.25 0.18 0.24 1.00 
0.21 0.07 0.28 0.20 0.18 0.18 0.29 -0.04 1.00 
0.26 0.16 0.33 0.22 0.23 0.23 0.25 0.49 -0.34 1.00 
X41[0.07 0.21 0.38 0.08 -0.02 0.00 0.10 0.44 -0.16 0.23 1.00 
X1210.52 0.41 0.35 0.53 0.48 0.38 0.44 0.30 -0.05 0.50 0.24 1.00 
X43|[0.7 0.47 0.41 0.79 0.79 0.69 0.67 0.32 0.23 0.31 0.10 0.62 1.00 
X44/0.25 0.17 0.64 0.27 0.27 0.14 0.16 0.51 0.21 0.15 0.31 0.17 0.26 1.00 
X45[0.51 0.35 0.58 0.57 0.51 0.26 0.38 0.51 0.15 0.29 0.28 0.41 0.50 0.63 1.00 
X416/0.21 0.16 0.51 0.26 0.23 0.00 0.12 0.38 0.18 0.14 0.31 0.18 0.24 0.50 0.65 1.00 





HR ECAA, HH princompO 对 相关 和 矩阵 作 主 成 分 分 析 ， 最 后 
画 出 各 变量 在 第 一 、 第 二 主 成 分 下 的 散 点 图 (程序 名 :  exam0902.R) 
#### 输入 数据 ， 按 下 三 角 输 入 ， 构 成 向 量 

















x<-c(1.00, 
0.79, 1.00, 
0.36, 0.31, 1.00, 
0.96, 0.74, 0.38, 1.00, 
0.89, 0.58, 0.31, 0.90, 1.00, 
0.79, 0.58, 0.30, 0.78, 0.79, 1.00, 
0.76, 0.55, 0.35, 0.75, 0.74, 0.73, 1.00, 
0.26, 0.19, 0.58, 0.25, 0.25, 0.18, 0.24, 1.00, 
0.21, 0.07, 0.28, 0.20, 0.18, 0.18, 0.29,-0.04, 1.00, 
0.26, 0.16, 0.33, 0.22, 0.23, 0.23, 0.25, 0.49,-0.34, 1.00, 
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0.07, 0.21, 0.38, 0.08,-0.02, 0.00, 0.10, 0.44,-0.16, 0.23, 
1.00, 

0.52, 0.41, 0.35, 0.53, 0.48, 0.38, 0.44, 0.30,-0.05, 0.50, 
0.24, 1.00, 

0.77, 0.47, 0.41, 0.79, 0.79, 0.69, 0.67, 0.32, 0.23, 0.31, 
0.10, 0.62, 1.00, 

0.25, 0.17, 0.64, 0.27, 0.27, 0.14, 0.16, 0.51, 0.21, 0.15, 
0.31, 0.17, 0.26, 1.00, 

0.51, 0.35, 0.58, 0.57, 0.51, 0.26, 0.38, 0.51, 0.15, 0.29, 
0.28, 0.41, 0.50, 0.63, 1.00, 

0.21, 0.16, 0.51, 0.26, 0.23, 0.00, 0.12, 0.38, 0.18, 0.14, 
0.31, 0.18, 0:24, 0.50, 0.65, 1.00) 


#### 输入 变量 名 称 

hanegé-c( X1", "XQ, "yg. wydw. wypi. wo» wygd- cygu C A 
IIO. KO Eq. ION, cursu. wur onde. oen 

#### EAE He HE IRAE A E 


R«-matrix(0, nrow-16, ncol-16, dimnames-list(names, names)) 
for (i in 1:16)(1 
for (j in. 1:1)4 
R[i,j]<-x[(i-1)*i/2+j]; R[j,i]<-R[i,j] 





} 
#### 作 主 成 分 分 析 
pr«-princomp(covmat-R); load«-loadings(pr) 
#### 画 散 点 图 
plot(1oad[,1:2]); text(load[,1], 1oad[,2], adj=c(-0.4, 0.3)) 
得 到 的 图 形 由 图 9.3 所 示 ， 

图 9.3 中 左上 角 的 点 看 成 一 类 , 它们 是 “长 ”类 , 即 身 高 (Xi1) 、 坐 高 (X2) 、 
头 高 (X4) 、 裤 长 (Xs) 、 下 档 (X6) 、 手 长 (X7) 、 袖 长 (X13). 

右 下 角 的 点 看 成 一 类 ， 它 们 是 “ 围 ” 类 ， 即 身 胸围 (X). WE (Xs). AF 
(Xu). WE (X1). EE (Xi5) 、 腿 肚 (X16). 
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图 9.3: 16 个 变量 在 第 一 、 第 二 主 成 分 下 的 散 点 图 

中 间 的 点 看 成 一 类 , 为 体形 特征 指标 , BA (Xo). JEE (Xio) 、 肩 宽 (X12). 

2. 主 成 分 回归 

在 回归 分 析 一 章 中 ， 曾 经 讲 过 ， 当 目 变 量 出 现 多 重 共 线性 时 ， 经 典 回 归 方 法 
作 回归 系数 的 最 小 二 乘 估 计 , 一 般 效果 会 较 差 , 而 采用 主 成 分 回归 能 够 克服 直接 
回归 的 不 足 . 下 面 用 一 个 例子 来 说 明 如 何 作 主 成 分 回归 ,并 且 是 如 何 殉 服 经 典 回 
归 的 不 足 . 
例 9.3 (法 国 经 济 分 析 数 据 ) 

考虑 进口 总 额 了 与 三 个 自 变量 : 国内 总 产值 Xi, 存储 量 X. 总 消费 量 Xi 
位 为 10 IKR) 之 间 的 关系 ， 现 收集 了 1949 年 至 1959 年 共 11 年 有 数据 ， 如 
表 9.3 所 示 . 试 对 此 数据 作 经 典 回归 分 析 和 主 成 分 回归 分 析 . 

解 : 输入 数据 (采用 数据 框 形式 ), 再 用 一 般 线性 回归 方法 作 回 归 分 析 (程序 
4: exam0903.R). 
#### 用 数据 框 的 形式 输入 数据 
> conomy«-data.frame( 


xl=c(149.3，161.2，171.5，175.5，180.8，190.7， 
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表 9.3: 法 国 经 济 分 析 数 据 


15.9 
16.4 
19.0 
19.1 
18.8 
20.4 
22:7 
26.5 


o o N OC» Ci A WW N 


28.1 


上 一 
© 


27.6 





= 
jæ 


26.3 


202.1, 212.4, 226.1, 231.9, 239.0), 
x2=c(4.2, 4.1, 3.1, 3.1, 1.1, 2.2, 2.1, 5.6, 5.0, 5.1, 0.7), 
x3=c(108.1, 114.8, 123.2, 126.9, 132.1, 137.7, 
146.0, 154.1, 162.3, 164.3, 167.6), 
y=c(15.9, 16.4, 19.0, 19.1, 18.8, 20.4, 22.7, 
26.5, 28.1, 27.6, 26.3) 
) 


HEHH 作 线 性 回归 


> lm.sol«-1m(y^xi*x2*x3, data-conomy) 
> summary (1m.sol) 
Call: 


lm(formula = y ^ x1 + x2 + x3, data = conomy) 


Residuals: 


Min 1Q Median 3Q Max 
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-0.52367 -0.38953 0.05424 0.22644 0.78313 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -10.12799 1.21216 -8.355 6.9e-05 *** 


x1 -0.05140 0.07028 -0.731 0.488344 

x2 0.58695 0.09462 6.203 0.000444 xxx 

x3 0.28685 0.10221 2.807 0.026277 * 

Signif. codes: 0O ’***’ 0.001 ^»? 0.01 °»? 0.05 ^. 0.1? ^ 1 


Residual standard error: 0.4889 on 7 degrees of freedom 
Multiple R-Squared: 0.9919, Adjusted R-squared: 0.9884 
F-statistic: 285.6 on 3 and 7 DF, p-value: 1.112e-07 


从 计算 结果 可 以 看 出 ， 按 三 个 变量 得 到 回归 方程 





Y = —10.12799 — 0.05140.X, 十 0.58695.X» 十 0.28685.X3. (9.14) 


仔细 分 析 方 程 (9.14), 发 现 它 并 不 合理 回 到 问题 本 身 ， Y 是 进口 量 ， Xi 是 国 
内 总 产值 ， 而 对 应 系数 的 符号 确 为 负 ， 也 就 是 说 ， 国 内 的 总 产值 越 高 ， 其 进口 量 
确 越 少 ， 这 与 实际 情况 是 不 相符 的 ， 问 其 原因 ， 三 个 变量 存在 着 多 重 共 线性 (后 
面 我 们 将 会 看 到 最 小 特征 值 接近 于 0). 

为 克服 多 重 共 线 性 的 影响 ， 对 变量 作 作 主 成 分 回归 . 先 作 主 成 分 分 析 . 
#### 作 主 成 分 分 析 


> conomy.pr«-princomp(^xi*x2*x3, data-conomy, cor-T) 








> summary(conomy.pr, loadings-TRUE) 
Importance of components: 

Comp.1 Comp.2 Comp.3 
Standard deviation 1.413915 0.9990767 0.0518737839 
Proportion of Variance 0.666385 0.3327181 0.0008969632 
Cumulative Proportion 0.666385 0.9991030 1.0000000000 
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Loadings: 


Comp .1 Comp.2 Comp.3 


x1 0.706 0.707 
X2 -0.999 
X3 0.707 -0.707 


前 两 个 主 成 分 已 达到 9976 的 贡献 率 . 第 1 主 成 分 是 关于 国内 总 产值 和 总 消 
因此 称 第 1 主 成 分 为 产销 因子 . 第 2 主 成 分 只 与 存储 量 有 关 ， 称 为 存储 因 
注意 ， 


WE 


As = 0.0518737839? = 0.002690889 ~ 0, 


所 以 变量 存在 着 多 重 共 线性 . 

下 面 作 主 成 分 回归 . 首先 计算 样本 的 主 成 分 的 预测 值 ， 并 将 第 1 主 成 分 的 预 
测 值 和 第 2 主 成 分 的 预测 值 存放 在 数据 框 conomy 中 ， 然 后 再 对 主 成 分 作 回 归 分 
析 ， 其 命令 格式 如 下 
#### 预测 测 样本 主 成 分 ， 并 作 主 成 分 分 析 


> pre«-predict(conomy.pr) 








> conomy$zi«-pre[,1]; conomy$z2«-pre[,2] 
» lm.sol«-1m(y^zi*z2, data-conomy) 

> summary (1m.sol) 

Call: 


lm(formula = y ^ z1 + z2, data = conomy) 


Residuals: 
Min 1Q Median 3Q Max 
-0.89838 -0.26050 0.08435 0.35677 0.66863 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 21.8909 0.1658 132.006 1.21e-14 *** 
zi 2.9892 0.1173 25.486 6.02e-09 *** 


z2 -0.8288 0.1660 -4.993 0.00106 ** 
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Residual standard error: 0.55 on 8 degrees of freedom 
Multiple R-Squared: 0.9883, Adjusted R-squared: 0.9853 
F-statistic: 337.2 on 2 and 8 DF, p-value: 1.888e-08 


回归 系数 和 回归 方程 均 通过 检验 ， 而 且 效 果 显著 . 即 得 到 回归 方程 


Y = 21.8909 + 2.98922* — 0.8288Z;. 


上 述 方程 得 到 是 响应 变量 与 主 成 分 的 关系 , 但 应 用 起 来 并 不 方便 ,还 是 希望 
得 到 响应 变量 与 原 变 量 之 间 的 关系 . 由 于 ， 


Y = B+PiZi + 6523, 
Z = ail X] + ai X5 + ai X5, 
abr (Xa — t i(Xs— 7 
O aia) a) , aa) ,1 


V 511 V $22 V 333 











所 以 ， 


Q1171 ，Q1272 Q133 Q2171 . 2222 Q2373 
CN (oo 
0 : V $11 V $22 V $33 : V $11 V 322 V $33 


(8ta11 + 85a21) (8ta12 + 8522) (Bfa13 + 8523) 











十 i+ 一 Xs 二 X 
y S11 3 V $22 á V 333 3 
= bo + Bi Xi + b2X2 + Ba Xs, (9.15) 


其 中 


px px {AT ，Ql272 ，Q1373 | orf Q2171 ，Q2272 , Q23X3 
Bo = bò & (S. S9 SR (+) gu) 
go Pinth ias, (9.17) 
按照 式 (9.16)-(9.17) 编写 计算 系数 的 函数 
#### 作 变 换 ， 得 到 原 坐 标 下 的 关系 表达 式 


> beta«-coef(1m.sol); A«-loadings(conomy.pr) 














> x.bar«-conomy.pr$center; x.sd«-conomy.pr$scale 
> coef«-(beta[2]*A[,1]* beta[3]*A[,2]) /x.sd 


> beta0 <- beta[i1]- sum(x.bar * coef) 
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在 程序 中 ， coef 画 数 是 提取 回归 系数 ， loadings 是 提取 主 成 分 对 于 的 特征 向 
fi, conomy.pr$center 是 数据 的 中 心 , 也 就 是 数据 X 的 均值 ，conomy.pPr$scale 
是 数据 的 标准 差 ， 即 su 的 开 方 . 因此 得 到 相应 的 系数 


> c(beta0, coef) 


(Intercept) x1 x2 x3 
-9.13010782 0.07277981 20.60922012 0.10625939 
即 回归 方程 为 


Y = —9.13010782 十 0.07277981.X, 十 0.60922012X, 十 0.10625939.X3. — (9.18) 


此 时 ， 对 应 Xi. Xo, Xs 的 系数 均 为 正 数 ， 比 原 回 归 方程 (9.14) 更 合理 . 


9.2 ”因子 分 析 


因子 分 析 (factor analysis) 是 主 成 分 分 析 的 推广 和 发 展 ， 它 也 是 多 元 统计 分 
析 中 降 维 的 一 种 方法 , 是 一 种 用 来 分 析 隐 藏 在 表面 现象 背后 的 因子 作用 的 一 类 统 
计 模 型 . 因子 分 析 是 研究 相关 阵 或 协 方差 阵 的 内 部 依赖 关系 ， 它 将 多 个 变量 综合 
为 少数 几 个 因子 ， 以 再 现 原始 变量 与 因子 之 间 的 相关 关系 . 

因子 分 析 起 源 于 20 世纪 初 ， K. Pearson 和 C. Spearman 等 学 者 为 定义 和 
测定 智力 所 作 的 统计 分 析 . 目前 因子 分 析 在 心理 学 、 社 会 学 、 经 济 学 等 学 科 取得 
了 成 功 的 应 用 . 





9.2.1 35| 例 


下 面 用 几 个 例子 说 明 如 何 用 因子 分 析 来 构造 因子 模型 
例 9.4 为 了 解 学 生 的 学 习 能 力 ， 观 测 了 nn 个 学 生 的 p 个 科目 的 成 绩 (分 数 ) 用 
Xi, Xo, Xp 表示 p 个 科目 (例如 人 代数、 几何、 语文 、 英 语 、 政 治 ，………), Xos 
(£j; Ti «todo ts (i—1,2,--,n) 表示 第 i 个 学 生 的 p 科目 的 成 绩 ， 现 要 分 析 
主要 由 哪些 因素 决定 学 生 的 学 习 能 

现 对 这 些 资料 进行 归纳 分 析 ， 可 以 看 出 各 个 科目 (变量 ) 由 两 部 分 组 成 





Xi = af + £i, i= 1,2,---,p, (9.19) 
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其 中 了 是 对 所 有 Xi(i = 1,2,.…,p) 都 起 作用 的 公共 因子 (common factor), EX 
示 智 能 高 低 的 因子 ， 系 数 a; 称 为 因子 载荷 (loading); e; 是 科目 (变量 )X; 特有 的 
特殊 因子 (specific factor). 这 就 是 一 个 最 简单 的 因子 模型 . 

进一步 ， 可 把 简单 因子 模型 推广 到 多 个 因子 的 情况 ， 即 科目 X 所 有 的 因子 
有 m 个 ， 如 数学 推导 因子 、 记 忆 因 子 、 计 算 因 子 等 ,分别 记 为 fi, foe fm B 











Xj = ail 万 | Qiz f2 Eed Qimfm 十 Ei; RE 1, 2, sey p: (9.20) 





用 这 m 个 不 可 观测 的 互 不 相关 的 公共 因子 fis 户 …… fn( 也 称 为 潜 因 子 ) 和 一 个 
特殊 因子 e; 来 描述 原始 可 测 的 相关 变量 (科目 )Xi, Xo Xp 并 解释 分 析 学 生 
的 学 习 能 力 . 它们 的 系数 aa. ai, …，,aip 称 为 因子 载荷 ， 表 示 第 ;个 科目 在 和 m 个 
方面 的 表现 . 这 就 是 一 个 因子 模型 . 

Bj 9.5 Linden 对 二 次 大 战 以 来 奥林匹克 十 项 全 能 的 得 分 作 研 究 ， 他 收集 了 160 
组 数据 ， 以 Xi Xo. Xo 分 别 表 示 十 项 全 能 的 标准 得 分 ， 这 里 十 项 全 能 依次 
Æ: 100 米 短 跑 、 跳 远 、 跳 高 、 400 米 跑 、 110 米 跨 栏 、 铁 饼 、 撑 杆 跳高 、 标 
枪 、 1500 米 跑 ， 现 要 分 析 主 要 由 哪些 因素 决定 十 项 全 能 的 成 绩 ， 以 此 可 用 来 指 
导 运 动员 的 选拔 . 

对 于 这 十 项 得 分 ， 基 本 上 可 以 归结 于 短跑 速度 、 爆 发 性 臂力 、 爆 发 性 腿 力 和 
耐力 四 个 方面 ,每 一 方面 都 称 为 一 个 因子 ， 因 此 该 类 问题 可 用 因子 分 析 模 型 去 处 
理 . 

例 9.6 考察 人 体 的 五 项 生理 指标 : 收缩 压 (X1) 、 舒张 压 (X2) 、 心 跳 间隔 (X3) 、 
呼吸 间隔 (Xa) 和 天 下 温度 (Xs). 从 这 些 指标 考察 人 体 的 健康 状况 . 

从 生理 学 的 知识 可 知 ， 这 五 项 指标 是 受 植 物 神经 支配 的 ,植物 神经 又 分 为 交 
感 神经 和 副交感 神经 ， 因 此 这 五 项 指标 至 少 受 到 两 个 公共 因子 的 影响 ,也 可 用 因 
子 分 析 的 模型 去 处 理 . 

通过 以 上 几 个 例子 可 以 看 到 ， 因 子 分 析 的 主要 应 用 有 两 个 方面 , 一 是 寻求 基 
本 结构 ， 简 化 观测 系统 ， 将 具有 错综复杂 关系 的 对 象 (变量 或 样本 ) 综合 为 少数 
几 个 因子 (不 可 观测 的 随机 变量 ), 以 再 现 因 子 与 原始 变量 之 间 的 内 在 联系 ， 二 是 
用 于 分 类 ， 对 于 p 个 变量 或 n 个 样本 进行 分 类 . 

因子 分 析 根 据 研究 对 象 的 不 同 可 以 分 为 及 型 和 Q 型 因子 分 析 . 及 型 因子 
分 析 研 究 变 量 (指标 ) 之 间 的 相关 关系 ， 通 过 对 变量 的 相关 阵 或 协 方差 阵 内 部 结 
构 的 研究 ， 找 出 控制 所 有 变量 的 几 个 公共 因子 (或 称 主因 子 、 潜 在 因子 ), 用 以 对 
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变量 或 样本 进行 分 类 . Q 型 因子 分 析 研 究 样本 之 间 的 相关 关系 ， 通 过 对 样本 的 
相似 矩阵 内 部 结构 的 研究 找 出 控制 样本 的 几 个 主要 因素 (或 称 为 主因 子 ). 这 两 种 
因子 分 析 的 处 理 方法 是 一 样 的 ， 只 是 出 发 点 不 同 . R 型 从 变量 的 相关 阵 出 发 ， 
Q 型 从 样本 的 相似 矩阵 出 发 . 对 一 批 观 测 数据 ， 可 以 根据 实际 问题 的 需要 来 决定 
采用 哪 一 种 类 型 的 因子 分 析 . 
9.2.2 ”因子 模型 

1. 数学 模型 

设 X = (X, Xs X)! 是 可 观测 的 随机 向 量 ， 且 

E(X) 二 从 二 (m, H237 tt, Pal Var(X) == (Bi): 


因子 分 析 的 一 般 模 型 为 




















X1 — I = aufi + 012f2 t Gf + E1 
X» — p» = aa fi + a22f2 tt aomfm + £2 

. (9.21) 
Xp — Bp — dpi fi T ap2 f2 os snl n T Ep 

















其 中 fi f2,…, fm (M < p) 为 公共 因子 ， ss ……sp 为 特殊 因子 ， 它 们 都 是 
不 可 观测 的 随机 变量 .公共 因子 fu f2,……, fm 出 现在 每 一 个 原始 变量 Xi(i = 
1,2,---, p) 的 表达 式 中 ， 可 理解 为 原始 变量 共同 具有 的 公共 因素 ， 每 个 公共 因子 
HO = 站 2 m) 一 般 至 少 对 两 个 原始 变量 有 作用 ， 和 否则 它 将 归 入 特殊 因子 . 
每 个 特殊 因子 cili = 1,2,…,p) 仅仅 出 现在 与 之 相应 的 第 i 个 原始 变量 X; 的 表 
达 式 中 ， 它 只 对 这 个 原始 变量 有 作用 . 可 将 式 (9.21) 写成 矩阵 表示 形式 











X =pu+AF +e, (9.22) 

其 中 F = (fis fz, a Ta 为 公共 因子 向 量 ， E — (E1， E2) <, Ep)” 为 特殊 因子 向 
量 ，4 = (Qij)pxm 为 因子 载荷 矩阵 ， 通 稼 假设 

E(F) —- 0, Var(F) — I, (9.23) 

E(e 0, Var(e) = D = diag(o1,02,:::,07), (9.24) 

Cov(F,e) = 0. (9.25) 


— 
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由 上 述 假定 可 以 看 出 , 公共 因子 彼此 不 相关 且 具 有 单位 方 阵 ， 特殊 因子 也 彼此 不 
相关 且 和 公共 因子 也 不 相关 . 
2. 因子 模型 的 性 质 
(1) X 的 分 解 
X= AAT 4 D. (9.26) 
(2) 模型 不 受 单位 的 影响 . dp X* = CX, 则 有 
Xray HAF et, 
HHE u* = Cu, A* = CA, F* = F, œ = Ce. 
(3) 因子 载荷 不 是 惟一 的 . 设 了 是 一 m MEXER, 令 A* = AT, F* 2 TT F, 
则 模型 (9.22) 可 表示 为 
X-—pu-TA'F* +e. (9.27) 
因子 载荷 定 阵 不 惟一 对 实际 应 用 是 有 好 处 的 ,通常 利用 这 一 点 ， 通 过 因子 旋 
转 ， 使 得 新 因子 有 更 好 的 实际 意义 . 
3. 因子 载荷 矩阵 的 统计 意义 
(1) 
Cov(X,F)— A 或 Cov(X, fj) = ai. (9.28) 
即 因子 载荷 au; 是 第 i 个 变量 与 第 j 个 公共 因子 的 相关 系数 .由 于 Xi 是 fo fo 
MES Jus 的 线性 组 合 ， 所 以 系数 Qil, Qi2) * * Qim 是 用 来 度量 Xi 可 由 fi, Íz, t3 ji 
线性 组 合 表示 的 程度 . 
(2) S hi = X ai, WA 
j=1 





ou =h? +0, i=1,2, p. (9.29) 


hl 反映 了 公共 因子 对 原始 变量 X; 的 影响 ， 可 以 看 成 是 公共 因子 对 Xi 的 方差 贡 
献 ， 称 为 变量 X; 的 共同 度 (communality) 或 共性 方差 (common variance); 而 o2 
是 特殊 因子 ei 对 X 的 方差 贡献 ， 称 为 变量 X; 特殊 方差 (specifie variance). 当 
X 为 各 分 量 已 标准 化 的 随机 变量 (0i; = 1), 此 时 有 


hiqgj5—13; deep (9.30) 
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p 
(3) S gj = aj, WA 


MIS 4 十 Yt (9.31) 


9; 反映 了 公共 因子 f; 对 Xi, Xo Xp 的 影响 ,是 衡量 公共 因子 f; 重要 性 的 一 
个 尺度 ， 可 视 为 公共 因子 Í; 对 Xı, Xo, EE Xp 的 总 方差 贡献 ， 
9.2.3 ”参数 估计 


设 Xm Xo Xo) 是 一 组 p 维 样本 ， 其 中 Xo = (za, tiz, ip). Wi 
p IX 可 分 别 估计 为 


:下 
SX X 或 S 一 
2 @ 或 





7 = zd 
(Kon X) Cos X) 


i=1 





n—l 
为 了 建立 因子 模型 ， 首 先 要 估计 因子 载荷 矩阵 4 = (aij)pxm MEERI 2858 E 
D = diag(of,03,…,03). 常用 的 参数 估计 方法 有 如 下 三 种 ， 主 成 分 法 、 主 因子 
法 和 极 大 似 然 法 . 

1. 主 成 分 法 

设 样本 的 协 方差 阵 S 的 特征 值 为 Xi > 和 2 > … > Xp > 0, 相应 单位 正 交 特 
VETE] ERN. D, lo, ,lp, W S 有 谱 分 解 式 


p 
S= y Xl. 
i=1 


当 最 后 p— m 个 特征 值 较 小 时 ， S 可 近似 地 分 解 成 























S = NU c All + Mim t+ Apola 
~ Mal? qose but + D 
= AAT-D, (9.32) 
其 中 
A, m las es lin) e Cage (9.33) 
[e diag(o1, 02, :,07); (9.34) 


02 — sy—-» Ay Ssu  i—12,-p (9.35) 
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XX (9.33)-(9.35) 给 出 的 A 和 D 就 是 因子 模型 的 一 个 解 . REE 4 中 的 第 
j 列 和 XX 的 第 7 个 计 成 分 的 系数 相差 一 个 倍数 VAj(7 = 1,2,…,m)， 故 由 式 
(9.33)-(9.35) 给 出 的 这 个 解 称 为 因子 模型 的 主 成 分 解 . 
当 相关 变量 所 取 单 位 不 同时 , 和 常常 先 对 变量 标准 化 ,标准化 变量 的 样本 协 方 
差 阵 就 是 原始 变量 的 样本 相关 阵 R, 再 用 RRE S, 与 上 类 似 , 即 可 得 主 成 分 解 . 
下 面 写 出 主 成 分 法 的 及 程序 (程序 名 : factor.analy1.R) 


factor.analyil«-function(S, m)í 
p«-nrow(8); diag S«-diag(8); sum rank«-sum(diag. 8) 
rowname«-paste("X", 1:p, sep="") 
colname«-paste("Factor", 1:m, sep="") 
A«-matrix(0, nrow-p, ncol-m, 
dimnames-list(rowname, colname)) 
eig«-eigen($) 
for (i in 1:m) 
A[,il]l«-sqrt(eig$values[i])*eig$vectors[,i] 
h<-diag (A%*%t (A) ) 
rowname«-c("SS loadings","Proportion Var","Cumulative Var") 
B«-matrix(0, nrow-3, ncol-m, 
dimnames-list(rowname, colname)) 
for (i in 1:m){ 
B[1,i]«-sumn(A[, il^2) 
B[2,i]«-B[1,i]/sum rank 
B[3,i]«-sum(B[1,1:i])/sum rank 
} 
method<-c("Principal Component Method") 
list(method-method, loadings-A, 
var-cbind(common-h, spcific-diag S-h), B-B) 
} 
函数 输入 值 8 是 样本 方差 阵 或 相关 甜 阵 ， n 是 主因 子 的 个 数 ， 函 数 的 输出 值 是 
列表 形式 ， 其 内 容 有 估计 参数 的 方法 ( 主 成 分 法 ), ATRE (loadings), 共性 方 
差 和 特殊 方差 ， 以 及 因子 F IEE X 的 贡献 、 贡 献 率 和 累积 贡献 率 . 
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例 9.7 对 5 个 国家 和 地 区 的 男子 径 赛 记 录 作 统计 , 每 位 运动 员 记 录 8 项 指标 : 
100 米 跑 (Xı) 、200 米 跑 (X2) 、400 米 跑 (Xa). 800 米 跑 (X4). 1500 米 跑 


(Xs). 5000 米 跑 (Xs) 、 


X 
1.000 
0.923 
0.841 
0.756 
0.700 
0.619 
0.633 
0.520 





Xə 


1.000 
0.851 
0.807 
0.775 
0.695 
0.697 
0.596 


10000 米 跑 (X7) 、 马 拉 松 (Xa). 8 项 指标 的 相关 拢 
E R dede 9.4 所 示 . 取 m o— 2, 用 主 成 分 法 估计 因子 载荷 和 共性 方差 等 指标 . 


表 9.4: 16 项 身体 指标 数据 的 相关 矩阵 


Xs 


1.000 
0.870 
0.835 
0.779 
0.787 
0.705 


X4 


1.000 
0.918 
0.864 
0.869 
0.806 


Xs X6 Xr Xs 


1.000 

0.928 1.000 

0.935 0.975 1.000 

0.866 0.932 0.943 1.000 


解 : 输入 相关 矩阵， 用 编写 的 函数 factor.analy1() 主 成 分 法 估计 载荷 和 


相关 指标 (程序 名 : 


x<-c(1.000, 
.923, 
.841, 
.756 ， 
.700, 
.619, 
.633, 
0.520, 


O O O O O O 


names«-c("X1", 


R«-matrix(0, nrow-8, 


exam0907 . R) 
1.000, 
0.851, 1.000, 
0.807, 0.870, 
0.775, 0.835, 
0.695, 0.779, 
0.697, 0.787, 
0.596, 0.705, 
"X2", "xa", 


for (i in 1:8) 


for (j in 1:i){ 


1.000, 
0.918, 
0.864, 
0.869, 
0.806, 

"XA", 


1.000, 

0.928, 1.000, 

0.935, 0.975, 1.000, 

0.866, 0.932, 0.943, 1.000) 
Re TY 


ncol-8, dimnames-list(names, names)) 


R[i,j]«-x[(i-1)*i/2*j]; R[j,il«-R[, jl 
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j 


source("factor.analy1l.R") 


fa«-factor.analyl(R, m-2); fa 


得 到 
$method 
[1] "Principal Component Method" 
$1oadings 
Factori Factor2 


X1 -0.8171700 -0.53109531 
X2 -0.8672869 -0.432T71347 
X3 -0.9151671 -0.23251311 
X4 -0.9487413 -0.01184826 


X5 -0.9593762 0.13147503 
X6 -0.9376630 0.29267677 
X7 -0.9439737  0.28707618 
X8 -0.8798085 0.41117192 
$var 

common Spcific 
X1 0.9498290 0.05017099 
X2 0.9394274 0.06057257 
X3 0.8915931 0.10840689 
X4 0.9002505 0.09974954 
X5 0.9376883 0.06231171 
X6 0.9648716 0.03512837 
X7 0.9734990 0.02650100 
X8 0.9431254 0.05687460 
$B 


Factor1 Factor2 
SS loadings 6.6223580 0.8779264 
Proportion Var 0.8277947 0.1097408 
Cumulative Var 0.8277947 0.9375355 
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Tu 
E-S-(AAT D)— 


(eis) pxp: 


可 以 证 明 ， 


p 
2 12,65 < n+ +A (9.36) 


当 m 选择 适当 ， 则 近似 公式 (9.32) 的 误差 平方 和 Qm) 很 小 . 
计算 出 例 9.7 的 Q(m) f&. 


> E<- R-fa$loadings ^*^ t(fa$loadings)-diag(fa$var[,2]) 
> sum(E^2) 
[1] 0.01740023 


公 因 子 个 数 m 的 确定 方法 一 般 有 两 种 ， 一 是 根据 实际 问题 的 意义 或 专业 理 
论 知识 来 确定 ;二 是 用 确定 主 成 分 个 数 的 原则 ， 选 m 为 满足 : 


m p 
Ya [X > Þ 
isl d 


的 最 小 个 数 (比如 取 Py > 0.70 H Ps « 1). 
2. 主因 子 法 
主因 子 法 是 对 主 成 分 法 的 修正 , 这 里 假定 变量 已 经 标准 化 . 设 R= AAT - D, 


M- 


s: 
Il 








则 
R- D = AAT = R*, 





称 为 约 相关 阵 (reduced correlation matrix). 易 见 ， R* 中 对 角 线 元 素 是 好 ,而 不 
是 1, 非 对 角 线 元 素 与 R 中 是 完全 一 样 的 ， 并 且 R* 也 一 定 是 非 负 窍 阵 . 
Ut 0? 是 特殊 方差 o? 的 一 个 合适 的 初始 估计 ， 则 约 相关 和 矩阵 可 估计 为 





52 
hi A E> E Tip 
72 
^ T21 h3 nes T2» 
* 
R=|. "ts 
7,2 
Tpl Tp2 ^^- hz 


其 中 及 =1 一 人 7 是 及 的 初始 估计 . 
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WR" 的 前 m 个 特征 值 依次 为 M > 入 > nÀ,o0, 相应 的 单位 正 交 特 
征 向 量 为 号 i, 则 有 近似 分 解 式 : 


R* = AAT, (9.37) 
其 中 
&- (Visi ss. Xs). (9.38) 
A 
j=1 


N A RI D = diag(62,02,---,62) 为 因子 模型 的 一 个 解 , 这 个 解 就 称 为 主因 子 解 . 
如 果 希 望 求 得 拟 合 程度 更 好 的 解 , 则 可 以 采用 迭代 的 方法 , 即 式 (9.39) 中 的 
02 再 作为 特殊 方差 的 初始 估计 ， 重 复 上 述 步 又 ， 直 至 解 稳 定 为 止 . 
“与 主 成 分 法 类 似 ， 主 因子 法 中 的 R 也 可 以 换 成 样本 方差 阵 3, 只 不 过 此 时 
h? = sj; — 07. 
按照 主因 子 法 的 思想 编写 相应 的 R 程序 (UT 44:  factor.analy2.R) 


factor.analy2<-function(R, m, d){ 





p<-nrow(R); diag R«-diag(R); sum rank«-sum(diag R) 
rowname«-paste("X", 1:p, sep="") 
colname«-paste("Factor", 1:m, sep="") 
A«-matrix(0, nrow-p, ncol-m, 
dimnames-list(rowname, colname)) 
kmax-20; k«-1; h <- diag R-d 
repeatí 
diag(R)«- h; hi«-h; eig«-eigen(R) 
for (i in 1:m) 
A[,il«-sqrt(eig$values[i])*eig$vectors[,i] 
h«-diag(A 4*4 t(A)) 
if ((sqrt(sum((h-h1)^2))«1e-4)|k--kmax) break 
k«-k*1 
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rowname«-c("SS loadings","Proportion Var","Cumulative Var") 
B«-matrix(0, nrow-3, ncol-m, 
dimnames-list(rowname, colname)) 
for (i in 1:m){ 
B[1,i]«-sum(A[,i]l^2) 
B[2,i]«-B[1,i]/sum rank 
B[3,i]«-sum(B[1,1:i])/sum rank 
} 
method<-c("Principal Factor Method") 
list(method-method, loadings=A, 
var-cbind(common-h,spcific-diag R-h),B-B,iterative-k) 
} 
函数 输入 值 R EERE EREET 2898 Ee, m 是 主因 子 的 个 数 ，d 是 特殊 方 
差 的 估计 值 函数 的 输出 值 是 列表 形式 ， 其 内 容 有 估计 参数 的 方法 (主因 子 法 )， 
因子 载荷 (loadings), 共性 方差 和 特殊 方差 ， 因 子 F 对 变量 X 的 贡献 、 贡 献 率 
和 累积 贡献 率 ， 以 及 求解 的 闪 代 次 数 ， 
例 9.8 取 m = 2, 特殊 方差 的 估计 值 52 为 
0.123, 0.112, 0.155, 0.116, 0.073, 0.045, 0.033, 0.095, 
用 主因 子 法 估计 例 9.7 因子 载荷 和 共性 方差 等 指标 . 
解 : 
> d<-c(0.123, 0.112, 0.155, 0.116, 0.073, 0.045, 0.033, 0.095) 
> source("factor.analy2.R") 
> fa<-factor.analy2(R, m=2, d); fa 
$method 
[1] "Principal Factor Method" 
$loadings 
Factor1 Factor2 
X1 -0.8123397 -0.5138770 
X2 -0.8610033 -0.4156335 
X3 -0.9005036 -0.2105394 
X4 -0.9370464 -0.0178458 
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X5 -0.9545376 0.1186825 
X6 -0.9384689 0.2861327 
X7 -0.9470951 0.2858694 
X8 -0.8728340 0.3770009 


$var 

common Spcific 
X1 0.9239653 0.07603473 
X2 0.9140779 0.08592213 
X3 0.8552337 0.14476635 
X4 0.8783744 0.12162560 
X5 0.9252275 0.07477251 
X6 0.9625958 0.03740416 
XT 0.9787105 0.02128951 
X8 0.9039690 0.09603103 
$B 


Factori Factor2 
SS loadings 6.54088 0.8012746 
Proportion Var 0.81761 0.1001593 
Cumulative Var 0.81761 0.9177692 
$iterative 
[1] 16 
用 了 16 次 迭代 得 到 稳定 解 ， 再 计算 Q(m), 
> E<- R-fa$1oadings ^*^ t(fa$1oadings)-diag(fa$var[,2]) 
> sum(E^2) 
[1] 0.005421902 
要 优 于 主 成 分 法 . 
特殊 方差 0; 的 常用 初始 估计 方法 有 以 下 几 种 : 
(1) R 07 = 1/r", Rep v" 是 RR 的 第 i 个 对 角 线 元 素 . 
(2) th? = max [ry], MEN, 8? = 1- h. 
(3) ix h2 = 1, iet, 8? — 0. 


3. 极 大 似 然 法 


9.2 因子 分 析 531 


设 公共 因子 F ~ Nm(0, 站 ,特殊 因子 = ~ NS, D), 且 相 互 独立 ， 那么 可 以 得 
到 因子 载 答 矩阵 和 特殊 方差 的 极 大 似 然 估计 . 设 p 维 观测 向 量 Xa, X2, Xin 
HRAŠE NS (u, X) 的 随机 样本 ， 则 样本 的 似 然 函 数 为 u, 2 的 函数 Lu, Y). 

d E= AAT +D, W u= X, MURK LX, AAT + D) 的 对 数 似 然 函数 
为 AD 的 函数 ， 记 为 2(4, D). 设 (A, D) 的 极 大 似 然 估计 为 (A, D), 即 有 


p(4 D) = max (A, D), 


则 4,D 满足 以 下 方程 组 


nba s A (1 ATD74), (9.40) 
Dou diag ($ — AA"), (9.41) 
其 中 
s pnm ES — 
a (Xo - X) (Xo — XY. 


1 


2 


为 了 保证 方程 组 (9.40) 得 到 惟一 解 ， 可 附加 计算 上 方便 的 惟一 性 条 件 ; 
ATDA = Xt A E. (9.42) 


Jóreskog 和 Lawley SEA (1967) itl. -PRA KAHI, 使 极 大 似 然 
法 逐步 被 人 们 采用 . 其 基本 思想 是 ， 先 取 一 个 初始 矩阵 


. /入 2 ^2 和 2 
Do = diag(01, 01, d 5365); 


现 计算 Ao, 计算 Ao 的 办 法 是 先 求 Da “Di 的 特征 值 0 > 02 > Op 及 相应 
的 特征 向 量 l, I», s. lp. 令 O = diag(01, 05, S Om), L= (l, l2, Sa lm) HS 


Ao = DI? L (O — In)". (9.43) 


再 由 式 (9.41) 得 到 Di, 然后 再 按 上 述 方法 得 到 A, 直到 满足 方程 (9.40) 为 止 . 
下 面 是 由 上 述 思 想 编写 的 R 程序 (程序 名 : factor.analy3.R) 
factor.analy3<-function(S, m, d){ 

p<-nrow(S); diag S«-diag(8); sum rank«-sum(diag. S) 


rowname«-paste("X", 1:p, sep="") 
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colname«-paste("Factor", 1:m, sep="") 
A«-matrix(0, nrow-p, ncol-m, 
dimnames-list(rowname, colname)) 
kmax-20; k«-1 
repeatí 
di«-d; d2«-1/sqrt(d); eig«-eigen(S * (d2 %0% d2)) 
for (i in 1:m) 
A[,il]l«-sqrt(eig$values[i]-1)*eig$vectors[,i] 
A«-diag(sqrt(d)) %*% A 
d<-diag(S-A%*%t CA) ) 
if ((sqrt(sum((d-d1)^2))«1e-4)|k--kmax) break 
k«-k*1 
} 
rowname«-c("SS loadings" ,"Proportion Var","Cumulative Var") 
B«-matrix(0, nrow-3, ncol=m, 
dimnames-list(rowname, colname)) 
for (i in 1:m){ 
B[1,i]«-sum(A[,i]^2) 
B[2,i]«-B[1,i]/sum rank 
B[3,i]«-sum(B[1,1:i])/sum rank 
} 
method<-c ("Maximum Likelihood Method") 
list(method-method, loadings=A, 
var=cbind(common=diag_S-d, spcific-d),B-B,iterative-k) 
} 
例 9.9 3x m — 2, 特殊 方差 的 估计 值 52 为 
0.123, 0.112, 0.155, 0.116, 0.073, 0.045, 0.033, 0.095, 
用 极 大 似 然 法 估计 例 9.7 因子 载荷 和 共性 方差 等 指标 . 
f 
» d«-c(0.123, 0.112, 0.155, 0.116, 0.073, 0.045, 0.033, 0.095) 


> source("factor.analy3.R") 
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> fa<-factor.analy3(R，m=2，d); fa 
$method 
[1] "Maximum Likelihood Method" 
$1oadings 

Factor1 Factor2 
[1,] -0.7310172 -0.62009641 
[2,] -0.7919994 -0.54575786 
[3,] -0.8549232 -0.34252454 
[4,] -0.9158820 -0.16063750 
[5,] -0.9580091 -0.02492734 
[6,] -0.9725436 0.14485411 
[7,] -0.9806291 0.14276290 
[8,] -0.9226101 0.24953974 


$var 

common Spcific 
X1 0.9189057 0.08109428 
X2 0.9251146 0.07488539 
X3 0.8482167 0.15178334 
X4 0.8646442 0.13535579 
X5 0.9184028 0.08159724 
X6 0.9668237 0.03317631 
X7 0.9820147 0.01798529 
X8 0.9134795 0.08652046 
$B 


Factor1 Factor2 
SS loadings 6.407848 0.9297541 
Proportion Var 0.800981 0.1162193 
Cumulative Var 0.800981 0.9172002 
$iterative 


[1] 14 


用 了 14 KERERE. 再 计算 Q(m), 
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> E<- R-fa$loadings %*% t(fa$1oadings)-diag(fa$var[,2]) 
> sum(E^2) 
[1] 0.006710651 


将 上 述 三 种 估计 方法 结合 在 一 起 ， 并 考虑 在 主 成 分 估计 中 介绍 的 因子 个 数 
m 的 选取 方法 ， 和 在 主因 子 法 中 介绍 特殊 方差 9? 初始 估计 方法 . 编写 相应 的 R 
程序 (程序 名 : factor.analy.B) 


factor.analy<-function(S, m-0, 
d-1/diag(solve(S)), method="likelihood"){ 
if (m==0){ 
p<-nrow(X); eig<-eigen(S) 
sum_eig<-sum(diag(S)) 
for (i in 1:p){ 
if (sum(eig$values[1:i])/sum_eig>0.70){ 


m<-i; break 


J 

source("factor.analyl.R"); source("factor.analy2.R") 

source("factor.analy3.R") 

switch(method, 
princomp-factor.analy1(S, m), 
factor-factor.analy2(S, m, d), 
likelihood-factor.analy3(S, m, d) 


} 


函数 输入 样本 方差 矩阵 S 或 样本 相关 和 矩阵 R. 因子 个 数 m( 缺 省 值 由 贡献 率 
计算 出 m 值 ) 特殊 方差 的 初始 估计 d( 缺 省 什 为 O? = 1/7")， 计 算 因 子 载荷 的 
方法 ， method-princomp 采用 主 成 分 方法 ， method=factor 采用 主因 子 方法 ， 
method=1ikelihood( 缺 省 值 ) 采用 极 大 似 然 方法 . 函数 输出 就 是 采用 前 面 介绍 三 
种 方法 的 输出 格式 . 
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9.2.4 ”方差 最 大 的 正 交 旋转 


因子 分 析 的 目的 不 仅 是 求 出 公共 因子 , 更 主要 的 是 应 该 知道 每 个 公 因 子 的 实 
际 意 义 . 但 由 于 前 面 介绍 的 估计 方法 所 求 出 的 公 因子 解 ， 其 初始 因子 载荷 矩阵 并 
不 满足 “简单 结构 准则 ”, 即 各 个 公 因 子 的 典型 代表 变量 很 不 突出 ， 因 而 容易 使 公 
因子 的 实际 意义 含糊 不 清 ， 不 利用 对 因子 的 解释 .为 此 ， 必 须 对 因子 载荷 矩阵 施 
行 旋转 变换 ， 使 得 因子 载 答 的 每 一 列 各 元 素 的 平方 按 列 向 0 或 1 两 极 转 化 ， 达 
到 其 结构 简化 的 目的 . 


1. 理论 依据 


设 因子 模型 X = AF +e, RP F IAAF, X FF 施行 正 交 变换 ， 
4 Z-ITF(T f£— m 阶 正 交 矩阵 ), 则 


X —ATZ- (9.44) 
且 
Var(Z) = Mas ms Ves (9.45) 
Qov(Z;e) = Cov(T’F,e)=T Cov(FE,£) = 0, (9.46) 
Var(X) =  Var(ATZ) + Var(e) = APVar(Z)TT AT + D 
= AAT D. (9.47) 





XX (9.44)-(9.47) WH, zz F 是 因子 模型 的 公 因子 向 量 ， 则 对 任 一 正 交 矩阵 T, 
Z = 玉环 也 是 公 因子 向 量 . 相应 的 AD 是 公 因子 2 的 因子 载荷 矩阵 ， 

利用 此 性 质 ， 在 因子 分 析 的 实际 计算 中 ， 当 求 得 初始 因子 载荷 窍 阵 A 后 ， 
反复 右 乘 正 交 甜 阵 D, 使 得 AD 具有 更 明显 的 实际 意义 .这 种 变换 载荷 官 阵 的 方 
法 ， 称 为 因子 轴 的 正 交 旋转 . 


2. 因子 载 答 方差 
设 因子 模型 X = AF +e, A= (qij)pxm 为 公 因 子 向 量 了 的 因子 载荷 矩阵 
j= 


如 果 4 的 每 一 列 ( 即 因子 载荷 癌 量 ) 数值 越 分 散 ， 相 应 的 因子 载荷 问 量 的 方 
差 越 大 . 为 消除 由 于 oz 符号 不 同 的 影响 及 各 变量 对 公共 因子 依赖 程度 不 同 的 影 
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2 
Qij : . 
DE 1—12,.--.,p j7L2,.--,m, 


将 第 7 列 的 了 个 数据 di; d2;, dp 的 方差 定义 为 
P 442 1 P dj; E üt ? 
- (di; — d) (p $$- (24) | , 


Ji d;- 23 d, 4 — 1,2, c.m. 则 因子 载荷 矩阵 4 的 方差 为 


2 
m 1 m p aj. p a2. 
v- «EFE AIR 
j=1 j=1 j-1 4 i=1 i 


E V ERK, ARI 个 因子 载 答 问 量 数值 越 分 散 ， 如 有 果 载 丛 值 或 是 趋 于 1 或 
是 趋 于 0, 这 时 相应 的 公共 因子 F; 具有 简单 化 结构 ， 因 而 我 们 希望 因子 载荷 甜 
阵 4 的 方差 尽 可 能 大 . 

3. 方差 最 大 的 正 交 旋转 

通 浓 采用 正 交 旋 转 得 到 方差 最 大 的 载荷 矩阵 ， 设 m = 2, 因子 载荷 矩阵 为 


Eu 


Vj = 


V | 一 


i=1 











Qil Q12 
Q21 Q22 
A-|. .|, 
Qpi Q2 
cosy 一 Sin 
取 正 交 惩 阵 工 = | . , 则 
sin COS % 
a11 COSY + a458In 一 Q118Sin Y + a12 COS p b biz 
5 a21 COS Y + a22Sinp —a21 Sin Y + a22 COS Y bo21 b22 
451 COS Q + ay Sin 一 0plSin Y + a55 COS Y bp! by 


jÉ Z —I'F 的 因子 载荷 害 阵 ， 这 相当 于 将 fi f 确定 的 因子 平面 上 旋转 一 个 角 


HE o. 此 时 ， 
2 
1 | 5 (二 的 | 
a (%4) jin 


i=l t =i t 
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为 了 使 
OV | 0 
dg = 8p (Vi + V5) — 0, 
p 应 满足 ee 
一 RE 
tanq — a (9.48) 
其 中 


p 


p p p 
a — Miu, 8-25w, c-N(u-w) d-25»:.mw, (949) 
i—1 i—1 i=1 


一 i=l 


2 2 
Qil Qi2 
H 和 一 一 一 — —— T 1 2 D " 5 


对 于 m > 2 的 情况 ， 需 要 作 多 次 的 旋转 变换 ， 这 里 就 不 再 介绍 其 方法 了 ， 
因为 R 软件 中 的 varimax() 函数 可 以 完成 因子 载荷 矩阵 的 旋转 变换 (或 反射 变 
换 ). 它们 的 使 用 格式 为 

varimax(x, normalize = TRUE, eps = 1e-5) 
其 中 x 是 因子 载荷 窍 阵 normalize 是 逻辑 变量 ， 即 是 否 对 变量 进行 Kaiser IE 
WE. eps ERA IEF RE. 
f| 9.10 用 varimax() 函数 对 例 9.7. 4| 9.8 和 例 9.9 中 得 到 的 因子 载荷 矩阵 作 
旋转 变换 ， 使 其 方差 达到 最 大 . 

解 : 用 自 编 的 函数 factor.analyO 得 到 三 种 方法 计算 的 因子 载荷 估计 和 矩 
阵 ， 再 用 varimaxO 函数 得 到 方差 最 大 的 因子 载荷 矩阵 ， 以 主因 子 方 法 计算 为 
例 ， 基 本 格式 为 


> source("factor.analy.R") 




















> fa«-factor.analy(R, m-2, method-"princomp") 

> ymi«-varimax(fa$loadings, normalize = F); vmi 

将 程序 中 的 "princomp" WOW "factor" 和 "likelihood", 就 可 得 到 另外 两 
种 方法 的 计算 结果 ， 具 体 的 计算 结果 列 在 表 9.5 中 . 


9.2.5 ”因子 分 析 的 计算 函数 


事实 上 , 在 R 软件 中 , 提供 了 作 因子 分 析 计 算 的 函数 一 factanalO 函数 ， 
它 可 以 从 样本 数据 、 样 本 的 方差 矩阵 和 相关 矩阵 出 发 对 数据 作 因 子 分 析 ， 并 可 直 
接 给 出 方差 最 大 的 载 集 因子 矩阵 . 
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表 9.5: 旋转 后 的 因子 载荷 矩阵 


—0.278 | —0.934 | 一 0.299 —0.913 
—0.380 | —0.891 | —0.399 一 0.869 
一 0.547  —0.770 | —0.561  —0.736 
—0.715 | —0.624 | —0.711 — —0.610 
—0.816 | —0.521 | —0.812  —0.516 


一 0.904  —0.385 | —0.906 | —0.377 
一 0.905 —0.393 | 一 0.912  —0.382 
—0.937 | —0.257 | —0.913 — —0.265 


4.211 3.289 4.215 3.127 
0.526 0.411 0.527 0.391 
0.526 0.938 0.527 0.918 


0.762 0.648 0.771 0.637 
—0.648 0.762 | —0.637 0.771 





函数 factanal() 采用 极 大 似 然 法 佑 计 参 数 ， 其 使 用 格式 为 
factanal(x, factors, data = NULL, covmat = NULL, n.obs = NA, 
subset, na.action, start - NULL, 
Scores - c("none", "regression", "Bartlett"), 
rotation = "varimax", control = NULL, ...) 
其 中 x 是 数据 的 公式 , 或 者 是 由 数据 (每 个 样本 按 行 输入 ) 构成 的 窍 阵 ， 或 者 是 数 
PHE. factors 是 因子 的 个 数 . data 是 数据 框 , 当 x 由 公式 形式 给 出 时 使 用 . 
covmat 是 样本 的 协 方差 矩阵 或 样本 的 相关 年 阵 ， 此 时 不 必 输 入 变量 x. scores 
表示 因子 得 分 的 方法 ， scores="regression", 表示 用 回归 方法 计算 因子 得 分 ， 
当 参 数 为 scores="Bartlett", 表示 用 Bartlett 方法 计算 因子 得 分 (具体 意义 见 
TUIS), 缺 省 值 为 "none"", 即 不 计算 因子 得 分 ， rotation 表示 旋转 ， 缺 省 值 
为 方差 最 大 旋转 ， 当 rotation-"none" 时 ， 不 作 旋 转变 换 . 
例 9.11 R m = 2, 用 factanal() 函数 估计 例 9.7 因子 载荷 和 共性 方差 等 指 
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示 ， 参 数 选择 方差 最 大 . 


A 


> fa«-factanal(factors-2, covmat-R); fa 
Call: 
factanal(factors = 2, covmat = R) 
Uniquenesses: 

X1 X2 X3 X4 X5 X6 XT X8 
0.081 0.075 0.152 0.135 0.082 0.033 0.018 0.087 
Loadings: 


Factorí Factor2 


X1 0.291 0.913 
X2 0.382 0.883 
X3 0.543 0.744 
X4 0.691 0.622 
X5 0.799 0.529 
X6 0.901 0.393 
XY 0.907 0.399 
X8 0.914 0.278 
Factor1 Factor2 
SS loadings 4.112 3.225 


Proportion Var 0.514 0.403 
Cumulative Var 0.514 0.917 
The degrees of freedom for the model is 13 and the fit was 0.3318 


在 上 述 信息 中 ， call 表示 调用 函数 的 方法 ._ uniquenesses 是 特殊 方差 ， 
HU o? WHE. loadings 是 因子 载荷 矩阵 ， 其 中 Factori Factor2 是 因子 ， 
X1 X2 ... X8 是 对 应 的 变量 . SS loadings 是 公共 因子 f; 对 变量 Xi, Xo, 
os Xp 的 总 方差 贡献 ， 即 9) = »ES Proportion Var 是 方差 贡献 率 ， 即 
Var(X;). 
二 


$ j 
9;/ Y; Var(X;) Cumulative Var 是 累积 方差 贡献 率 ， 即 $7 g2/ 
i=1 k=1 t 


在 计算 结果 中 ,因子 fi 后 几 个 变量 (Xo, Xr, Xs) BUBUWIS-T-BAIET: 1, 这 些 
变量 涉及 的 是 长 跑 ， 因 此 可 称 A 是 耐力 因子 . 而 因子 fo 中 前 几 个 变量 (X1, X) 
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接近 1, 涉及 的 是 短跑 ， 因 此 可 称 fo 是 速度 因子 . 
例 9.12 现 有 18 名 应 聘 痢 应 聘 菜 公司 的 菜 职位 ， 公 司 为 这 些 应 聘 痢 的 15 项 指 
标 打 分 ， 其 指标 与 得 分 情况 见 第 三 章 例 3.17. 试用 因子 分 析 的 方法 对 15 项 指标 
作 因 子 分 析 ， 在 因子 分 析 中 选取 5 个 因子 . 

解 : 读数 据 (由 例 3.17 知 ， 数 据 在 数据 文件 applicant.data 中 ), HIH K 
数 factanal() 进行 因子 分 析 . 


> rt«-read.table("applicant.data") 


> factanal(^., factors=5, data-rt) 

Call: 

factanal(x = ^., factors = 5, data = rt) 
Uniquenesses: 


FL APP AA LA SC LC | HON SMS EXP DRV 
0.439 0.597 0.509 0.197 0.118 0.005 0.292 0.140 0.365 0.223 
AMB | GSP POT KJ SUIT 
0.098 0.119 0.084 0.005 0.267 
Loadings: 
Factori Factor2 Factor3 Factor4 Factor5 
FL 0.127 0.722 0.102 -0.117 


APP 0.451  À 0.134  À 0.270  Á 0.206 0.258 
AA 0.129 0.686 

LA 0.222 0.246 0.827 

SC 0.917 0.167 

LC 0.851 0.125 0.279 -0.420 
HON | 0.228 -0.220 0.777 

SMS 0.880 0.266 0.111 

EXP 0.773 0.171 

DRV | 0.754 0.393 0.199 0.114 
AMB | 0.909  À 0.187 0.112 0.165 
GSP 0.783 0.295 0.354 à 0.148 -0.181 
POT 0.717 0.362 à 0.446 0.267 

KJ 0.418 | 0.399  Á 0.563 -0.585 
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SUIT 0.351 0.764 0.148 
Factor1 Factor2 Factor3 Factor4 Factor5 
SS loadings 5.490 2.507 2.188 1.028 0.331 


Proportion Var 0.366 0.167 0.146 0.069 0.022 
Cumulative Var 0.366  À 0.533  À 0.679 0.748  0O.TTO 
Test of the hypothesis that 5 factors are sufficient. 

The chi square statistic is 60.97 on 40 degrees of freedom. 
The p-value is 0.0179 

第 一 行 是 读数 据 ， 得 到 的 rt 是 数据 框 格式 ， 第 二 行 作 因子 分 析 ，“. 表示 
全 部 变量 . 

在 得 到 的 结果 中 ， 公 共 因 子 还 有 比较 鲜明 的 实际 意义 . 

第 一 公共 因子 中 ， 系 数 绝对 值 大 的 变量 主要 是 : SC( 自 信心 ), LC( 洞 察 力 )， 
SMS( 推 销 能 力 ), DRV (驾驶 水 平 ), AMB( 事 业 心 ), GSP( 理 解 能 力 ), POT( 潜 在 能 
力 ), 这 些 主要 表现 求职 者 外 露 能 力 ; 

第 二 公共 因子 系数 绝对 值 大 的 变量 主要 是 ，FL( 求 职 信 的 形式 ), EXP( 经 验 )， 
SUIT( 适 应 性 ), 这 些 主要 反映 了 求职 者 的 经 验 ; 

第 三 公 系 数 绝对 值 大 的 变量 主要 是 : LA( 讨 人 喜欢 ) 了 ON( 诚 实 ), 它 主要 反 
上映 了 求职 者 提 和 否 讨 人 喜欢 ; 

第 四 、 五 公共 因子 系数 绝对 值 较 小 , 这 说 明 这 两 个 公共 因子 相对 次 要 一 些 . 
第 四 公共 因子 相对 较 大 的 变量 是 ， AA (专业 能 力 ), 人 KJ 交际 能 力 ), 它 主要 反映 了 
求职 者 的 专业 能 力 ; 第 五 公共 因子 相对 较 大 的 变量 是 ， APPA), LC( 洞 察 力 )， 
它 主要 反映 求职 者 的 外 貌 . 














9.2.6 ”因子 得 分 


迄今 为 止 ， 已 介绍 了 如 何 从 样本 协 方差 矩阵 S 或 相关 矩阵 R 来 得 到 公共 因 
子 和 因子 载荷 ， 并 给 出 相应 的 实际 背景 . 当 我 们 得 到 公共 因子 和 因子 载荷 后 ,就 
应 当 反 过 来 考察 每 一 个 样本 .如 对 于 例 9.12, 在 得 到 五 个 公共 因子 后 ， 应 当 考 察 
48 名 应 聘 者 在 五 个 因子 的 得 分 情况 ， 这 样 可 以 便于 公司 从 中 挑选 更 适合 本 公司 
需要 的 人 员 . 

合计 因子 得 分 的 方法 有 两 种 ， 一 是 加 权 最 小 二 乘法 ， 二 是 回归 方法 . 


1. 加 权 最 小 二 乘法 
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Xe X 满足 因子 模型 (不 妨 设 u= 0), 
X — AF +e. 
假定 因子 载荷 矩阵 4 和 特殊 因子 方差 窍 阵 D 已 知 ， 考 虑 加 权 最 小 二 乘 函 数 
e(F) = (X — AF)! D^! (X — AF). 
求 五 的 估计 值 F, 使 得 p( 门 = mine(F). 由 极 值 的 必要 条 件 得 到 
F= (ADAAN: A DS (9.51) 
这 就 是 因子 得 分 的 加 权 最 小 二 乘 估计 . 
如 果 假 定 X ~ N,CAF, D), 则 由 式 (9.51) 得 到 的 F 也 是 对 F 的 极 大 似 然 估 
i. 该 方法 称 为 Bartlett 因子 得 分 . 
在 实际 问题 中 ， 式 (9.51) 中 的 4 和 D 用 估计 值 4 和 万 代替 ， X 用 样本 
Xa 来 代替 ， 此 时 ， 得 到 因子 得 分 Fo. 
2. 回归 法 
在 因子 模型 中 ， 也 可 以 反 过 来 ， 将 因子 表示 成 变量 的 线性 组 合 ， 即 
fi = PaXit bX +--+ ipXp, 1=1,2,.…,m (9.52) 
来 计算 因子 得 分 ， 称 式 (9.52) 为 因子 得 分 函数 ， 写 成 矩阵 形式 
F-BX, (9.53) 
其 中 F = (fi, f», EXE. fas B = (Bi mxo: 
下 面 用 回归 的 方法 计算 式 (9.53) 中 B 的 估计 值 . 
假设 变量 OX 已 标准 化 ， 公 共 因 子 F 也 已 标准 化 ， 并 假设 公共 因子 F 和 变 
E X 满足 回归 方程 
fi= bX1it bX tt bp Xpte;, j=1,2,..,m. (9.54) 
由 因子 载荷 矩阵 4 = (ay) 的 意义 ， 有 
Cov( Xj, T 一 Cov(X;, bii Xi 十 bio Xo +--+ bip Xp + Ej) 
buta + bjariz 十 十 bjpTip, 
p 


s Tikbjk, i= LD j= 1,2,.…,m, (9.55) 
k=1 








Qij 
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即 
A — RBT, (9.56) 


其 中 R (rug), HIRERE, B= (bij)mxp 因此， 用 

B = A'R” (9.57) 
作为 B 的 估计 值 . 代入 式 (9.53) 得 到 

F= ATR^X. (9.58) 


XX (9.58) 是 因子 得 分 的 计算 公式 . 由 于 该 公式 是 由 回归 方程 得 到 的 ， 因此 称 为 回 
归 法 . 此 方法 是 Thompson (1939) 提出 来 的 ， 也 称 为 Thompson 方法 . 

到 目前 为 止 ， 计 算 因 子 得 分 的 两 种 估计 方法 到 底 哪 一 个 好 还 没有 定论 ， 
Jb, R 软件 中 作 因 子 分 析 的 函数 factanal() 同时 给 出 了 两 种 方法 ， 当 参数 
scores="regression" 时 ， 采 用 的 回归 法 ;， 当 参数 为 scores="Bartlett" Hf, 
采用 的 是 加 权 最 小 二 乘法 . 
例 9.13 计算 例 9.12 中 18 名 应 聘 者 的 因子 得 分 . 

fi 
> rt«-read.table("applicant.data") 


> fa«-factanal(^., factors-5, data-rt, scores-'regression") 

这 里 采用 的 是 回归 法 . fa$scores 将 给 出 48 名 应 聘 者 在 5 个 公共 因子 的 得 分 
情况 ( 略 ). 为 直观 起 见 ， 画 出 48 位 应 聘 者 在 第 一 、 第 二 公共 因子 下 的 散 点 图 ， 
> plot(fa$scores[, 1:2], type-"n" 

> text(fa$scores[,1], fa$scores[,21]) 


其 图 形 如 图 9.4 所 示 . ”由 前 面 分 析 可 知 ， 第 一 公共 因子 主要 表现 求职 者 外 露 能 
力 , 第 二 公共 因子 主要 表现 求职 者 的 经 验 . 公司 可 以 选择 两 者 得 分 都 比较 高 的 应 
聘 者 , 如 39 40. 、7 、8 、9 和 2 号 应 聘 者 . 如 偏重 外 露 能 力 ， 则 选取 第 一 
公共 因子 得 分 较 大 的 应 聘 者 . 如 偏重 经 验 ， 则 可 以 考虑 第 二 公共 因子 得 分 较 大 的 
应 聘 者 . 公司 也 可 以 根据 情况 ， 画 出 第 二 、 第 三 公共 因子 得 分 的 散 点 图 ， 或 选择 
Bartlett 方法 计算 因子 得 分 . 
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图 9.4: 48 位 应 聘 者 在 第 一 、 第 二 公共 因子 下 的 散 点 图 


9.3 ”典型 相关 分 析 


典型 相关 分 析 (canonical correlation analysis) 是 用 于 分 析 两 组 随机 变量 之 
间 的 相关 性 程度 的 一 种 统计 方法 , 它 能 够 有 效 地 揭示 两 组 随机 变量 之 间 的 相互 线 
性 依赖 关系 .这 一 方法 是 由 Hotelling (Æ, 1935) 首先 提出 来 的 . 


在 实际 问题 中 ， 经 常 遇 到 要 研究 一 部 分 变量 与 男 一 部 分 变量 之 间 的 相互 关 
f. 例如 ， 在 工 三， 考察 原料 的 主要 指标 (Xi, X2,…, Xp) 与 产品 的 主要 指标 
(Yi, Yoe Yp); 在 经 济 学 中 ， 研 究 主 要 肉食 品 的 价格 与 销售 之 间 的 关系 ， 在 地 
质 学 中 ,为 研究 岩石 形成 的 成 因 关 系 ,考察 岩石 的 化 学 成 分 与 其 周围 岩 化 学 成 分 
的 相关 性 ; 在 教育 学 中 ,考察 研究 生 入 学 考试 成 绩 与 本 科 阶 段 一 些 主要 课程 成 绩 

一 般 地 , 假设 有 两 组 随机 变量 Xi, Xo, Xp 和 Yi, Yos Yu 研究 它们 的 相 
AURA, 当 p = 9 = 1 时 , 就 是 通常 两 个 变量 X 与 了 的 相关 关系 . 当 p > 1,g>1 
时 ， 采 用 类 似 于 主 成 分 分 析 的 方法 ， 找 出 第 一 组 变量 的 线性 组 合 U 和 第 二 组 变 
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量 的 线性 组 合 V, 即 


Do. Q1 X4 | 2X2 Feed d Xp; 
V = bi Yı + boy2 十 DNE 十 baY,, 





于 是 将 研究 两 组 变量 的 相关 性 问题 转化 成 研究 两 个 变量 的 相关 性 问题 , 并 且 可 以 
适当 地 调整 相应 的 系数 a, b, 使 得 变量 UV 和 的 相关 性 达到 最 大 ， 称 这 种 相关 为 
典型 相关 ， 基 于 这 种 原则 的 分 析 方 法 称 为 典型 相关 分 析 . 

9.3.1 ”总体 典型 相关 


1. 典型 相关 的 定义 


WX = (Xi, X2, X); Y = (Ys Ys, Yo)! 为 随机 向 量 , 用 X 与 了 的 
线性 组 合 a^ X MOY 之 间 的 相关 来 研究 X 5 Y 之 间 的 相关 ， 并 希望 找到 a 与 
b, 使 p(a”X,b?Y) 最 大 ， 由 相关 系数 的 定义 ， 


Cov(a7 X,bTY) 


Ty Lys 
pla X. b Y) = /VT (9.59) 

对 任意 的 o, B 和 c,d, 有 
p (o(a* X) + B, c(b Y) +d) = p (a X, bY). (9.60) 


式 (9.60) 说 明 使 得 相关 系数 最 大 的 a X MTY 并 不 惟一 ， 因 此 ， 在 综合 变量 
时 ， 可 限定 
Var(a! X) —1, — Var(b' Y) — 1. 


: : X 
E X = (Xr Xs Xp)”, Y = (Ys os Ya)", p+ q 维 随机 向 量 e 
的 均值 为 0, 协 方差 阵 X0. 者 存在 al = (a11, 012, ^5, aip)” 和 bı = (bii, b12, 
max piat X, BTY), (9.61) 
s.t. Var(o? X) — 1, (9.62) 
Var(8T Y ) = 1. (9.63) 
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目标 函数 的 最 大 值 ， 则 称 U = aiX, Vi — bY 为 X,Y 的 第 一 对 (组 ) 典型 变 
量 (canonical variates), 称 它们 之 间 的 相关 系数 p(Us, Vi). 为 第 一 典型 相关 系数 
(canonical correlation). 
如 果 存 在 ak = (Q1, Qk2,* `, akp)” 和 bi = (bri, bk2 ttt bka)” 使 得 
(1) a£ X, 信和 和 前 面 的 天 一 工 对 典型 变量 都 不 相关 ; 
(2) Var(az X) = 1, Var(bf Y) = 1; 
(3) a X 与 Y 相关 系数 最 大 . 
则 称 Uk = aF X, V; = OLY 为 X,Y 的 第 k 对 (组 ) 典型 变量 ， 称 它们 之 间 的 相关 
2. 典型 变量 和 典型 相关 系数 的 计算 


^z- m 则 有 
X Y , 


E(Z)20, Var(2) = 了 = E s ， 


221 222 


4 U-a' X,V = UY, 因此， 求解 第 一 对 典型 变量 和 典型 相关 系数 的 约束 优化 
问题 (9.61)-(9.63) 就 等 价 为 


max p(U, V) = oT 35, (9.64) 
st. — d Xxas (9.65) 
BTE = 1. (9.66) 


这 是 一 个 典型 的 约束 优 问 题 ， 这 里 采用 约束 问题 的 一 阶 必 要 条 件 进行 求解 . 
构造 约束 问题 (9.64)-(9.66) 的 Lagrange 函数 


L(a, B, A) 一 PI = à (a iia => 1) = z (8T 3:55 E 1) s 


其 中 入 = (04,3)? X Lagrange RF. 
由 约束 问题 (9.64)-(9.66) 的 一 阶 必要 条 件 


ƏL OL 


一 二 一 二 0 Tyua=1 TY» = 1. 
Ja ) 88 , Q 2431 , B^ Moa 
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得 到 如 下 方程 
X28 I Ajo = 0, (9.67) 
Xaa 一 ?2220 = 0, (9.68) 
aya = 1, (9.69) 
pg = 1 (9.70) 


下 面 求解 该 方程 . 在 式 (9.67) 上 左 乘 af, A (9.68) ÆR 07", 再 利用 式 
(9.69) 和 式 (9.70), 得 到 Xi = A = À. 

由 于 Xo 0, 所 以 Xu, Eg 存在 ， 整 理 式 (9.67) 和 式 (9.68) 得 到 

Aa XXn... ARX Xr (9.71) 

所 以 有 

Xa = E Entz Eaa = Ma, AUeXzXaXXoe89M3B. (9.72) 
其 中 Mi = Erbaa, M = XYX4YXgXn. 

因此 ， A? ERE My 或 M 的 特征 值 OEE, M 和 M» 有 相同 的 特征 值 )， 
o 是 Mi 特征 值 和 对 应 的 特征 向 量 ， 6 是 Mo 特征 值 X 对 应 的 特征 向 量 . 


由 于 
oT Y = Aat Ya — ABT YA =\, 


因此 ， 优 化 问题 (9.64)-(9.66) 的 解 ai, bi 是 求 Mi 或 M2 最 大 特征 值 MM 和 相应 
的 满足 





[eel = a 
的 特征 向 量 a 和 e. 
下 面 给 出 计算 过 程 : 
(1) & M; = X dy Xa; 
(2) 计算 AM 的 最 大 特征 值 X 和 相应 的 特征 向 量 al, 令 


£i = 2z 2101, Q1 = o3 / yaf Zna, b, = &f/ y BI Xa, 


WI Ai = VY 为 第 一 对 典型 相关 系数 ，U1 = aL X, V, = DfY 为 第 一 对 典型 变量 , 


548 第 九 章 应 用 多 元 分 析 A) 


对 于 第 对 典型 相关 变量 的 求解 方法 类 似 于 第 1 对 典型 相关 变量 ， 求 解 第 
个 最 大 特征 值 和 相应 的 特征 向 量 . 略 去 推导 过 程 ， 只 需 将 上 面 的 第 二 步 改 为 : 
(2^) 计算 Mi 的 第 大 大 特征 值 Az 和 相应 的 特征 向 量 ous, 令 


Bk = E EAk, ak = ar / Jof Enos, by = Be | VO E22 


Wü] 入 = VAR 为 第 对 典型 相关 系数 ， Ui = ap X, Ve = GY 为 第 对 典型 变 


E, 


E. 


9.3.2 ”样本 典型 相关 


设 总 体 Z = XXe Xp Yo Yote Yr, 在 实际 中 ， 总 体 的 均值 向 量 
E(Z) = u 和 协 方差 矩阵 Cov(Z) = 通常 是 未 知 的 ， 因 而 无 法 求 得 总 体 的 典型 
变量 和 典型 相关 系数 ， 因 此 需要 根据 样本 对 X 进行 估计 . 

已 知 总 体 2 的 n 次 观测 数据 


XQ 
Zi = n , i= 1,2,.…,n, 
(2 y 

(i) ^ (p+q)x1 


于 是 样本 资料 为 
Xii. Xi2 ccc Xip Yu Y2 ”Var 
3231 122 `° X2p Ya Yz ^^^  U2q 
Tni Xn2 ”LVnp Ym Yn2 ^^^  Unq 


假设 Z ~ Nui X), 则 协 方差 矩阵 D 的 极 大 似 然 估 计 为 
A os — — T 
deum od (Z-Z), 
Hgpz-1i » Zo, PERE S 为 样本 协 方差 阵 . 
因此 ， 关 于 样本 典型 变量 的 计算 ， 只 需要 将 矩阵 Mi 或 Ms 中 的 Du, Xi 
Da, 22 换 成 341, X43, 3, Dos 即 可 ， 因 此 计算 过 程 为 : 
(1) 令 M = DRO 
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(2) 计算 Mi 的 全 部 特征 值 X > mo > X2 ,其 中 mm = min(p, q), 和 相应 
的 特征 向 量 ax, k—1,2, m, & 


br = Lzy X104, Qk = arf y aT55105, bx = Pef y T 


则 A. = VAR HE k 对 样本 典型 相关 系数 ， Ui = aX, Vi =Y HR k IPER 
典型 变量 . 


9.3.3 ”典型 相关 分 析 的 计算 
R 软件 提供 了 典型 相关 分 析 的 计算 ， 其 计算 形式 为 


cancor(x, y, xcenter = TRUE, ycenter = TRUE) 
其 中 x, y 是 相应 的 数据 矩阵 ， xcenter, ycenter 是 逻辑 变量 ， TRUE 是 将 数据 
中 心 化 ，FLASE 是 不 中 心 化 ( 缺 省 值 是 TRUE). 
例 9.14 某 康复 俱乐部 对 20 名 中 年 人 测量 了 三 个 生理 指标 ;体重 (XQ). HEB] 
(X2) 、 脉 搏 (X3) 和 三 个 训练 指标 : 引 体 向 上 (Yi) 、 起 从 次 数 (Yo) 、 跳 路 次 数 
(Yi). 其 数据 列 在 表 9.6 P. 试 对 这 组 数据 进行 典型 相关 分 析 . 


表 9.6: 康复 俱乐部 测量 的 生理 指标 和 训练 指标 
^s nox 


1 5 162 60 189 37 52 110 60 
2 12 101 101 162 35 62 105 37 
3 13 155 58 182 36 56 101 42 
4 8 101 38 167 34 60 125 40 
5 15 200 40 154 33 56 251 250 
6 17 120 38 166 33 52 210 115 
T 215 247 46 50 50 50 
8 70 202 37 62 210 120 
9 60 157 32 52 230 80 
10 138 33 68 110 43 
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解 : 用 数据 框 的 形式 输入 数据 , 为 消除 数据 数量 级 的 影响 , 先 将 数据 标准 化 ， 
再 调用 函数 cancor() 进行 计算 (程序 名 : exam0914.BR) 


test<-data.frame( 
X1=c(191, 193, 189, 211, 176, 169, 154, 193, 176, 156, 
189, 162, 182, 167, 154, 166, 247, 202, 157, 138), 
X2=c(36, 38, 35, 38, 31, 34, 34, 36, 37, 33, 
37, 35, 36, 34, 33, 33, 46, 37, 32, 33), 
x3=c (50, 58, 46, 56, 74, 50, 64, 46, 54, 54, 
52, 62, 56, 60, 56, 52, 50, 62, 52, 68), 
Yi-c( 5, 12, 13, 8, 15, 17, 14, 6, 4, 15, 
2, 12, 4, 6, 17, 13, 1, 12, 11, 2), 
Y2-c(162, 101, 155, 101, 200, 120, 215, 70, 60, 225, 
110, 105, 101, 125, 251, 210, 50, 210, 230, 110), 
Y3=c(60, 101, 58, 38, 40, 38, 105, 31, 25, 73, 
60, 37, 42, 40, 250, 115, 50, 120, 80, 43) 
) 
test«-scale(test) 


ca«-cancor(test[,1:3],test[,4:6]) 
计算 结果 为 


> Ca 
$cor 
[1] 0.79560815 0.20055604 0.07257029 
$xcoef 
[41] [,2] [,3] 

X1 -0.17788841 -0.43230348 -0.04381432 
X2 0.36232695 0.27085764 20.11608883 
X3 -0.01356309 -0.05301954  0.24106633 
$ycoef 

[51] [,2] [,3] 
Y1 -0.0801801 -0.08615561 -0.29745900 
Y2 -0.2418067 4 0.02833066 0.28373986 
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Y3 0.1643596 0.24367781 -0.09608099 


$xcenter 
X1 X2 X3 
2.331468e-16 4.385381e-16 -2.220446e-16 

$ycenter 
Y1 Y2 Y3 


1.443290e-16 -1.776357e-16 2.775558e-17 
其 中 cor 是 典型 相关 系数 . xcoef 是 对 应 于 数据 X 的 系数 ， 也 称 为 关于 数据 X 
的 典型 载荷 (canonical loadings), 即 样本 典型 变量 U 系数 和 矩阵 A 的 转 置 . ycoef 
是 对 应 于 数据 Y 的 系数 ， 也 称 为 关于 数据 Y 的 典型 载荷 ， 即 样本 典型 变量 V 
系数 矩阵 B 的 转 置 。 $xcenter 是 数据 X 的 中 心 ， 即 数据 X 的 样本 均值 X. 
$ycenter 是 数据 Y 的 中 心 ， 即 数据 Y 的 样本 均值 Y. 由 于 数据 已 作 了 标准 化 
人 处理 ， 因 此 这 里 计算 出 的 样本 均值 为 0. 
对 于 康复 俱乐部 数据 ， 与 计算 结果 相对 应 的 数学 意义 是 
Ui = —0.178X1 十 0.362X> 一 0136X3， 
Uz = —0.432X* + 0.271Xž — 0.0530 X, (9.73) 
Us = —0.0438 XT + 0.116X3 + 0.241 X3, 





V; = —0.0802Y* — 0.242Y7 + 0.164Y7, 
V» = —0.08615Y7 + 0.0283Y7 + 0.244Y7, (9.74) 
V; = —0.297Y? 十 0.284Y7 — 0.0961Y7, 


其 中 XILYS)-12,3J VAL RRE. RRIA 


p(U,, Vi) = 0.796, — p(Us, V2) = 0.201, — p(Us, Va) = 0.0726. 


由 式 (9.60) 可 知 ， 式 (9.73) 和 式 (9.74) 的 系数 并 不 惟一 ， 是 它们 的 任意 倍 
均 可 

下 面 计 算 样本 数据 在 典型 变量 下 的 得 分 . 由 于 U = AX, V = BY, 所 以 得 
分 的 R 程序 为 

U<-as.matrix(test[, 1:3])%*% ca$xcoef 


V«-as.matrix(test[, 4:6])/*/^ ca$ycoef 
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画 出 以 相关 变量 01, Vi 和 Us, V3 为 坐标 的 数据 散 点 图 ， 其 命令 为 
plot(U[,1], V[,1], xlab-"Ui", ylab-"V1") 
plot(U[,3], V[,3], xlab-"U3", ylab-"V3") 


其 图 形 如 图 9.5 和 图 9.6 所 示 . 
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图 9.6: 第 三 典型 变量 为 坐标 的 散 点 图 
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观察 这 两 张 图 ， 你 会 发 现 ， 图 9.5 中 的 点 基本 上 在 一 条 直线 附近 ， 而 图 9.6 
中 的 点 ， 基 本 上 分 布 很 散 . 这 是 为 什么 呢 ? 事实 上 ， 图 9.5 画 的 是 第 一 典型 变量 
的 散 点 图 ， 其 相关 系数 为 0.796, 接近 于 1, 所 以 在 一 直线 附近 ， 而 图 9.6 画 的 是 
第 三 典型 变量 的 散 点 图 ， 其 相关 系数 为 0.0726, 接近 于 0, 所 以 很 分 散 . 


9.3.4 ”典型 相关 系数 的 显著 性 检验 
作 相 关 分 析 的 目的 ， 与 前 面 的 主 成 分 分 析 、 因 子 分 析 类 似 ， 都 是 利用 降 维 的 
方法 来 处 理 数据 ,这 里 同样 存在 着 一 个 问题 ,就 是 选择 多 少 对 典型 变量 ? 要 回答 
这 一 问题 ， 就 需要 作 典 型 相关 系数 的 显著 性 检验 . 者 认为 典型 相关 系数 pi = 0, 
则 就 不 必 考 虑 第 kou] BRA E. 
1. 全 部 总 体 典型 相关 系数 均 为 零 的 检验 
X 
设 (.) ~ AlE) E> 0, S APERTE, n 为 样本 个 数 ， 且 
n p-q. 
考虑 假设 检验 问题 : 
Ho:p1=p2= := pm = 0, Hi, : 至 少 一 个 pi 不 为 0， (9.75) 
其 中 m= min{p, q}. 
若 检 验 接 受 Ho, 则 认为 讨论 两 组 变量 之 间 的 相关 性 没有 意义 ; 大 检验 拒绝 
Ho, 则 认为 第 一 对 典型 变量 是 显著 的 ， 事实 上 ， 式 (9.75) 等 价 于 假设 检验 问题 


Ho â Mio = 0, Hi : Mio x 0. (9.76) 








34 Ho OL, 表明 X SY 互 不 相关 似 然 比 检验 统计 量 为 


m 


~=][0-r (9.77) 
对 于 充分 大 的 n, 当 Ho 成 立时 ， 统 计量 
Q=- |n- 30+4+3)| mA (9.78) 





近似 服从 自由 度 为 pa 的 fi. 在 给 定 的 显著 性 水 平 a F, Æ Q > Xa(p9)， 
则 拒绝 原 假设 Ho, 认为 典型 变量 U, 与 Vi 之 间 相 关 性 显著 ， 否 则 认为 第 一 典型 
相关 系数 不 显著 .在 这 种 情况 下 ， 就 没有 必要 作 典 型 相关 分 析 了 . 
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2. 部 分 总 体 典型 相关 系数 均 为 零 的 检验 


假设 前 人 个 典型 相关 系数 是 显著 的 ， 现 要 检验 第 人 十 1 个 典型 相关 系数 是 否 
显著 ， 则 作 如 下 检验 : 


Ho : Pr41 = Pk = 二 pm 二 0， di 至少 一 个 pi 不 为 0. (9.79) 


其 检验 统计 量 为 








m 


wm= [[ 0-72) (9.80) 


i=k+1 


对 于 充分 大 的 n, 当 Ho 为 真 时 ， 统 计量 
k 
Qk+1 = — n-k- 5p a3) Yon? In A41 (9.81) 


i=1 
近似 服从 自由 度 为 (p — k)(a — k) B o8 分 布 .在 给 定 的 显著 性 水 平 a F, E 
Quai > xs (p — k)(a — k)), 则 拒绝 原 假设 Ho. 认为 第 上 十 1 个 典型 相关 系数 pia 
是 显著 的 ; 否则 认 典 型 相关 系数 不 显 车， 那么 典型 变量 只 取 到 k WIE. 
3. 相关 系数 检验 的 R 程序 
按照 前 面 介绍 有 方法 编写 出 相应 的 R 程序 (程序 名 : corcoef .test.R) 


corcoef.test«-function(r, n, p, q, alpha-0.1)í 





m«-length(r); Q«-rep(0, m); lambda «- 1 
for (k in m:1){ 
lambda«-lambda*(1-r[k]^2); 
Q[k]«- -1og(lambda) 
} 
s<-0; i«-m 
for (k in 1:m){ 
Q[k]«- (n-k+1-1/2*(p+q+3)+s)*Q[k] 
chi<-1-pchisq(Q[k], (p-k+1)*(q-k+1)) 
if (chi>alpha){ 
i<-k-1; break 
} 
s«-s*1/r[k] ^2 
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} 
程序 的 输入 值 是 相关 系数 r, 样本 个 数 n, 两 个 随机 向 量 的 维 数 p 和 q, 以 及 置信 
KF a( 缺 省 值 为 0.1). 程序 的 输出 值 是 典型 变量 的 对 数 . 
例 9.15 ( 续 例 9.14) 对 例 9.14 的 典型 相关 系数 作 检 验 . 

f£. 利用 计算 公式 所 编写 的 R 函数 corcoef.testO 作 检 验 . 


> source("corcoef.test.R") 
> corcoef.test(r-ca$cor, n-20, p-3, q-3) 
[1] 1 


只 需 第 一 对 典型 变量 .从 图 9.6, 我 们 也 可 以 看 到 ， 散 点 图 很 分 散 ， 无 法 给 出 相关 
HE. 同样 ， 画 第 二 典型 变量 的 散 点 图 ， 其 图 形 也 很 分 散 ,， 因 此， 我 们 只 利用 第 
一 典型 变量 分 析 问 题 ， 达 到 降 维 的 目的 . 
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9.1 用 主 成 分 方法 探讨 城市 工业 主体 结构 . 表 9.7 是 某 市 工业 部 门 十 三 个 
分 别 是 冶金 (1) 、 电 力 (2). ey m ne 
(T) 、 食 品 , (8) . 222A (9) . 222 (10), XÈ (11) 、 造 纸 (12) 和 文教 艺术 用 品 
(13), 入 个 指标 ， 分 别 是 年 未 固定 资产 净值 X) (万 元 )、 职 工人 数 X (人 )、 工 
业 总 产值 X3 CL). REESE X (元 /人 年 )、 百 元 国定 原 值 实现 产 
值 Xs (元 )、 资 金利 税率 Xe ( 26 )、 标 准 燃料 消费 量 X7 Ot) 和 能 源 利 用 效果 
Xs (万 元 / 吨 ) 的 数据 . 

(1) 试用 主 成 分 分 析 方 法 确定 8 个 指标 的 几 个 主 成 分 ， 并 对 主 成 分 进行 解 
TE; 

(2) 利用 主 成 分 得 分 对 19 个 行业 进行 排序 和 分 类 . 
9.2 对 某 地 区 的 某 类 消费 品 的 销售 量 了 进行 调查 , 它 与 下 面 四 个 变量 有 关 : X 
ERTAKKA, Xo 该 类 消费 品 平 均 价 格 指数 ， Xs 社会 该 消费 品 保 有 量 ，X4 
其 他 消费 品 平均 价格 指数 ， 历 史 资 料 如 表 9.8 所 示 . ” 试 利 用 主 成 分 回归 方法 建 
立 销售 量 了 与 四 个 变量 XQ Xo, X 和 X, 的 回归 方程 . 


556 


«c o nN Oo an A C2 N Ál 





Xj 

90342 
4903 
6735 
49454 
139190 
12215 
2372 
11062 
17111 
1206 
2150 
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表 9.7: 茶 市 工业 部 门 十 三 个 行业 入 个 指标 的 数据 


X» 

52455 
1973 
21139 
36241 
203505 
16219 
6572 
23078 
23907 
3930 
5704 
6155 
13203 


101091 
2035 
3767 

81557 
215898 
10351 
8103 
54935 
52108 
6126 
6200 
10383 
19396 


19272 
10313 

1780 
22504 
10609 

6382 
12329 
23804 
21796 
15586 
10870 
16875 
14691 


82.0 
34.2 
36.1 
98.1 
93.2 
62.5 
184.4 
370.4 
221.5 
330.4 
184.2 
146.4 
94.6 


16.1 
7.1 
8.2 

25.9 

12.6 
8.7 

22.2 

41.0 

21.5 

29.5 

12.0 

27.5 

17.8 


K 9.8: 某 类 消费 品 销售 的 原始 数据 


X 
82.9 
88.0 
99.9 
105.3 
117.7 
131.0 
148.2 
161.8 
174.2 
184.7 





X» 
92 
93 
96 
94 
100 
101 
105 
112 
112 
112 


17.1 
21.3 
25.1 
29.0 
34.0 
40.0 
44.0 
49.0 
51.0 
53.0 


X4 
94 
96 
97 
97 
100 
101 
104 
109 
111 
111 


197435 
592077 
726396 
348226 
139572 
145818 
20921 
65486 
63806 
1840 
8913 
78796 
6354 


8.4 

9.6 

10.4 
11.4 
12.2 
14.2 
15.8 
17.9 
19.6 
20.8 
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9.3 对 305 名 女 中 学 生 测 量 八 个 体型 指标 , 相应 的 相关 矩阵 见 例 8.7 中 的 表 8.5 所 
T. 试用 因子 分 析 的 方法 对 这 入 个 体型 指标 进行 分 析 ， 找 出 公共 因子 ， 并 给 出 合 
理 的 解释 . 

9.4 为 考查 学 生 的 学 习 情 况 ， 学 校 随 机 的 拍 取 12 名 学 生 的 5 门 课 期 末 考 试 的 
成 绩 ， 其 数据 见 例 3.18 中 的 表 3.6, 试用 因子 分 析 的 方法 对 这 种 数据 进行 分 析 . 

(1) 找 出 五 门 课程 的 公共 因子 ， 并 进行 合理 的 解释 ， 

AN esa 画 出 因子 得 分 的 第 
一 、 第 二 公共 因子 的 散 点 图 ， 通 过 这 些 散 点 图 来 分 析 这 12 名 学 生 的 学 习 情 况 . 
9.5 欲 研 究 儿 童 形态 与 肺 通气 功能 的 关系 ， 测 得 某 小 学 40 名 8~12 岁 健康 儿童 
形态 (身高 、 体 重 和 胸围 ) 与 肺 通气 功能 (肺活量 、 静 息 通气 和 每 分 钟 最 大 通气 
E), 数据 如 表 9.9 Pros. 试 分 析 儿 童 形态 指标 与 肺 通气 指标 的 相关 系 ， 确定 典 型 
变量 的 对 数 . 

表 9.9: 儿童 形态 肺 通气 功能 指标 表 
儿童 形态 肺 通气 功能 


序 | 身高 RE ME | 肺活量 BRE 每 分 钟 最 大 
号 | (cm)Xi (kg)Xo (cm)Xs | (DY;  €(LY; 通气 量 (LY, 
1 2.67 7.00 108.0 
2 2.08 6.98 91.7 
3 2.62 6.17 101.8 
4 2.89 10.42 112.5 
5 2.14 7.47 97.5 
6 2.86 9.25 92.4 
7 3.14 8.78 95.4 
8 2.03 5.31 77.2 
9 2.91 10.69 80.8 
10 2.33 11.15 76.7 
11 1.98 TAT 49.9 
12 3.29 3.35 58.0 
13 2.74 10.11 82.4 
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表 9.9( 续 ): 儿童 形态 肺 通气 功能 指标 表 


身高 体重 胸围 肺活量 静 息 通气 ” 每 分 钟 最 大 
(cm)X, (kg)Xa (em)jXs | (LY € (IY BA (LY. 


2.44 7.82 16.5 
2.98 13:29) 88.1 
3.17 13.14 110.3 
2.25 8.75 75.1 
2.96 6.60 71.5 
2.13 6.62 105.4 
2.52 5.59 82.0 
1.92 5.81 92.7 
2.02 6.42 18.2 
2.64 8.00 89.1 
2.87 9.09 61.8 
2.71 10.20 98.9 
2.92 6.16 83.7 
2.79 9.50 84.0 
2.27 8.92 71.0 
2.86 12.03 125.4 
2.67 7.00 108.0 
2.38 6.98 91.7 
2.62 6.17 101.8 
2.89 10.42 112.5 
2.14 229 97.5 
2.66 9.25 92.4 
2.75 8.78 95.4 
2.13 5.31 17.2 
2.91 10.69 80.8 
2.63 11.15 16.7 


2.01 7.77 49.9 





第 十 章 ”计算 机 模拟 


在 用 传统 的 方法 难以 解决 的 问题 中 , 有 很 大 一 部 分 可 以 用 概率 统计 模型 进行 
描述 . 由 于 这 类 模型 难以 作 定 量 分 析 ， 得 不 到 解析 结果 ， 或 者 有 解析 结果 但 工作 
量 太 大 以 至 无 法 实现 . 另外， 即便 是 确定 性 模型 ， 也 有 可 能 得 不 到 解析 的 结果 . 
在 这 种 情况 下 ， 可 以 采用 计算 机 模拟 的 方法 来 分 析 和 解决 问题 . 

本 章 介绍 最 基本 的 计算 机 模拟 方法 ,和 与 计算 机 模拟 蜜 不 可 分 的 Monte Carlo 
方法 . 


10.1 ”概率 分 析 与 Monte Carlo 方法 


10.1.1 ”概率 分 析 


概率 分 析 是 指 用 概率 的 方法 来 分 析 和 讨论 随机 模型 下面 请 看 一 个 例子 . 
例 10.1 ( 赶 火车 问题 ) 

一 列 火 车 从 4 站 开 往 D 站 ， 某 人 每 天 赶 往 站 上 火车 . 他 已 了 解 到 火车 从 
A 站 到 BB 站 的 运行 时 间 是 服从 均值 为 30 分钟， 标准 差 为 2 分 钟 的 正 态 随机 变 
€. 火车 大 约 下 午 13 点 离开 4 站 ， 此 人 大 约 13:30 达到 万 站 ,火车 离开 4 站 
的 时 刻 及 概率 如 表 10.1 所 示 . 此 人 到 达 B 站 的 时 刻 及 概率 如 表 10.2 所 示 . 问 
他 能 赶 上 火车 的 概率 是 多 少 ? 

表 10.1: 火车 离开 A 站 的 时 刻 及 概率 
火车 离 站 时 刻 13:00 13:05 13:10 


概率 0.7 0.2 0.1 





表 10.2: 某 人 到 达 B 站 的 时 刻 及 概率 
人 到 站 时 刻 13:28 13:30 13:32 13:34 


概率 0.3 0.4 0.2 0.1 





解 : 记 Ti 为 火车 从 A 茹 出 发 的 时 刻 ， To 为 火车 从 A 站 到 达 B 站 运行 的 时 
间 ， 为 此 人 到 达 B 站 的 时 刻 . 因此 , Ti, To, Ts 均 是 随机 变量 , H. T» ~ N (30, 2?), 
Ty, Ts 的 分 布 律 由 表 10.3 和 表 10.4 所 示 . 
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K 10.3: T 的 分 布 律 
时 刻 Ti / 分 0 5 10 
概率 p 0.7 0.2 0.1 
其 中 记 13 时 为 时 刻 t= 0. 
K 10.4: 的 分 布 律 
时 刻 T3/ 分 28 30 32 34 
概率 p 0.3 0.4 0.2 0.1 
其 中 记 13 时 为 时 刻 t= 0. 


通过 分 析 可 知 ， 此 人 能 及 时 赶 上 火车 的 充分 必要 条 件 是 ， Ti TS Ti. 由 
此 得 到 , 此 人 赶 上 火车 的 概率 为 PUT +h > TS). 上 述 分 析 方 法 称 为 概率 分 析 . 

还 有 许 许多 多 的 概率 分 析 问 题 . 提 到 概率 分 析 就 必须 提 到 Monte Carlo ( 2€ 
特 卡 洛 ) 方法 ， 因 为 Monte Carlo 方法 是 完成 概率 分 析 和 计算 机 模拟 的 重要 手 
段 . 


10.1.2 Monte Carlo 方法 


Monte Carlo 方法 ， 又 称 为 Monte Carlo 模拟 ,或 统计 试验 方法 或 随机 模拟 
等 . 所 谓 模 拟 就 是 把 某 一 现实 的 或 抽象 的 系统 的 部 分 状态 或 特征 ,用 另 一 个 系统 
( 称 为 模型 ) 来 代替 或 模仿 . 在 模型 上 作 实 验 称 为 模拟 实验 ， 所 构造 的 模型 为 模拟 
模型 . 

Monte Carlo 是 摩纳哥 国 的 世界 著名 赌 城 ,第 二 次 世界 大 战 期 间 ，Von Neu- 
man (5 - WKE) 和 Ulam( 乌 拉 姆 ) 将 他 们 从 事 的 与 研制 原子 弹 有 关 的 秘密 工 
lE, DANSK Monte Carlo 作为 秘密 代号 的 称呼 . 他 们 的 具体 工作 是 对 裂变 物质 的 
中 子 随机 扩散 进行 模拟 . 

Monte Carlo 方法 的 基本 思想 是 将 各 种 随机 事件 的 概率 特征 (概率 分 布 、 数 
学 期 望 ) 与 随机 事件 的 模拟 联系 起 来 ,用 试验 的 方法 确定 事件 的 相应 概率 与 数学 
期 望 . 因而 ， Monte Carlo 方法 的 突出 特点 是 概率 模型 的 解 是 由 试验 得 到 的 ， 而 
不 是 计算 出 来 的 . 

此 外 ， 模 拟 任 何 一 个 实际 过 程 ， Monte Carlo 方法 都 需要 用 到 大 量 的 随机 
数 ， 计 算 量 很 大 ， 人 工 计算 是 不 可 能 的 ， 只 能 在 计算 机 上 实现 . 

我 们 可 用 Monte Carlo 方法 实现 在 第 一 章 介 绍 的 Buffon 掷 针 问题 . 
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例 10.2 (Buffon 掷 针 问题 ) 

在 概率 论 中 ， 著 名 的 Buffon 搓 针 问题 就 是 用 统计 试验 的 方法 求 圆 周 率 T 的 
典型 代表 . 现 用 模拟 的 方法 重 现 Bufon Ri R. 

解 : 由 第 一 章 的 例 1.2 可 知 ， 针 与 平行 线 相 交 的 充分 必要 条 件 是 


x< T 
2 


Buffon 的 投 针 试验 在 计算 机 上 实现 ， 需 要 作 以 下 两 个 步 又 

(1) 产生 随机 数 ， 首先 产生 n 个 相互 独立 的 随机 变量 0, 的 抽样 序列 0;, zi 
i 二 1,2,…,n, 其 中 0; ~ U(0,m), x ~ U(0, 2). 

(2) 模拟 试验 .检验 不 等 式 


l 
zx 3 Sin 6i (10.1) 


是 否 成 立 . AA (10.1) 成 立 ， 表示 第 i KARRI ( 即 针 与 平行 线 相交 ). 设 n 次 
试验 中 有 天 次 成 功 ， 则 7 的 估 值 为 
2ln 


其 中 a > 1, 均 为 预先 给 定 . 
将 上 述 步 驴 编写 成 R 模拟 程序 (程序 名 buffon.R) 
buffon«-function(n, 1=0.8, a-1)1 
k«-0 
theta«-runif(n, 0, pi); x«-runif(n, 0, 1/2) 
for (i in 1:n){ 
if (x[i]<= 1/2x*sin(theta[il)) 
k<-k+1 
} 
2*1*n/(k*a) 
} 
调用 已 编 好 的 R 程序 buffon.R, 进行 模拟 ,， 取 n = 100000, 1 = 0.8, a = 1. 
> source("buffon.R") 
> buffon(100000, 120.8, a=1) 
[1] 3.142986 
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Buffon 的 投 针 试 验 的 模拟 过 程 虽 然 简单 ， 但 基本 反应 了 Monte Carlo 方法 
求解 实际 问题 的 基本 步骤. 大体 需要 有 建 模 、 模 型 改进 、 模 拟 实 验 和 求解 四 个 过 
程 . 

为 了 便于 理解 模型 改进 ， 这 里 用 概率 分 析 方 法 再 讨论 求 « 的 另 一 种 模拟 方 
法 . 

例 10.3 用 概率 分 析 方 法 进行 模拟 ， 计 算 圆周 率 m 的 估计 值 . 
解 : 考虑 服从 (0,1) 区 间 上 均匀 分 布 的 独立 的 随机 变量 X 5 Y, 因此， 二 维 
随机 变量 (X, Y) 的 联合 概率 密度 为 
Da ud ue 
X,Yy) = 
Ule xu 
N PU Y? si) - 7. 

考虑 边 长 为 1 的 正方 形 ， 以 一 个 角 (点 O) 为 圆心 ，1 为 半径 的 1/4 BIR. 
然后 ， 在 正方 形 内 等 概率 地 产生 TL 个 随机 点 (zi, yi); i = 1,2, t0, Bp Ti 和 Yi 
是 (0,1) 上 均匀 分 布 的 随机 数 ， 如 图 10.1 EpzR. wn NAFA k NARE 1/4 

y 


1 





A £ 
O 1 


图 10.1: 用 Monte Carlo 方法 求 7 的 估计 和 值 
圆 内 ， 即 有 天 个 点 (ro ui) 满足 ry 之 1. Wf n oo, 有 如 下 关系 ， 


(£) —, MAER (£) = 


因此 ，7 的 估计 值 为 


下 面 编写 的 模拟 程序 (程序 名 MC1.R) 
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MC1 <- function(n)1 
k <- 0; x <- runif(n); y <- runif(n) 
for (i in 1:n){ 
if (x[i]^2+y[i]^°2 < 1) 
k <- k+1 
} 
4*k/n 
} 
其 中 runif O 是 产生 均匀 分 布 的 随机 数 ,其 使 用 方法 为 runif 人 na，a，b) 产生 区 
EnA (a, b) 区 间 上 均匀 分 布 的 随机 数 ， 若 a,? EE, WIPE n 个 (0,1) 区 间 
上 均匀 分 布 的 随机 数 . 调用 MCI 函数 ， 取 n = 100000, 得 到 
> source("MC1.R"); MC1(100000) 
[1] 3.14268 
上 面 讨论 的 用 Monte Carlo 方法 求 7 的 方法 , 本 质 上 就 是 用 Monte Carlo 77 
法 求 定 积分 A VIT adds. 下面 给 出 求 定 积分 的 一 般 方法 . 


例 10.4 用 Monte Carlo 方法 求 定 积分 





SS g(x)da. (10.3) 


解 : 图 10.2(a) 的 阴影 面积 表示 是 定 积分 (10.3) 的 值 . 为 简化 问题 ， 将 函数 
限制 在 单位 正方 形 (0 < z < 1,0 < y < 1) 内 , 如 图 10.2(b) 所 示 . 只 要 函数 g(x) 











图 10.2: 用 Monte Carlo 方法 求 定 积分 的 示意 图 
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在 区 间 [4,4] 内 有 界 ， 则 可 以 适当 选择 坐标 轴 的 比例 尺度 ， 总 可 以 得 到 图 10.2(b) 
的 形式 . 
现在 只 考虑 图 10.2(b) 的 情况 ， 计 算 定 积 


r= 上 f (x)dz. (10.4) 


4 r, y 为 相互 独立 的 (0,1) 区 间 上 均匀 随机 数 ,在 单位 正方 形 内 随机 的 投掷 7 个 
点 (may) i 二 L2,--,n. 若 第 7 个 随机 点 (zj,y;) 落 于 曲线 f(x) 下 的 区 域内 
(图 10.2(b) 内 有 阴影 的 区 域 ), 表明 第 j 次 试验 成 功 ， 这 相应 于 满足 概率 模型 


yj < f(x;). (10.5) 
设 成 功 的 总 点 数 有 上 天 个 ， 总 的 试验 次 数 为 n, 则 由 强大 数 定律 ， 有 


. k 
lim — = p, 
noo T 


从 而 有 

i-a (10.6) 
显然 ， 概 率 p 即 为 图 10.2(b) 的 面积 A 从 而 ， 随 机 点 落 在 区 域 4 的 概率 p 恰 是 
所 求 积 分 的 估 值 1L. 

综 上 所 述 ， 可 以 把 Monte Carlo 方法 解 题 的 一 般 过 程 归 纳 为 以 下 三 点 . 

(1) 构造 问题 的 概率 模型 

对 随机 性 质 的 问题 ， 如 中 子 磁 撞 、 粒 子 扩散 运动 等 ， 主 要 是 描述 和 模拟 运动 
的 概率 过 程 ， 建 立 概率 模型 或 判别 式 ， 这 一 问题 ， 在 后 面 的 应 用 中 还 将 进一步 讨 
ie. 

对 确定 性 问题 ， 如 确定 m 值 ， 计 算 定 积分 ， 则 需 将 问题 转化 为 随机 性 问题 ， 
例如 图 10.2(a) 计算 连续 函数 g(x) 在 区 间 [a,b] 的 定 积分 ， 则 是 在 c(b— a) 的 有 
界 区 城内 产生 者 干 随机 点 ， 并 计数 满足 不 等 式 v; X glr) 的 点 数 ， 从 而 构成 了 问 
题 的 概率 模型 . 

(2) 从 已 知 概率 分 布 抽样 

从 已 知 概率 分 布 抽样 ， 实 际 上 是 产生 已 知 分 布 的 随机 数 序列 ， 从 而 实现 对 随 
机 事件 的 模拟 . 例如 , 要 得 到 估 值 T, 关键 在 于 产生 jz) 的 抽样 序列 f(z1), f (v2), 
s 了 (xn), 即 产生 具有 密度 函数 为 f(x) 的 随机 序列 . 
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(3) 建立 所 需 的 统计 量 

对 求解 的 问题 ， 用 试验 的 随机 变量 k/n 作为 问题 解 的 估 值 ， 奉 k/n 的 期 望 
值 恰好 是 所 求 问题 的 解 ， 则 所 得 结果 为 无 侦 佑 计 ， 这 种 情况 在 Monte Carlo 方法 
中 用 得 最 多 . 除 无 偏 估计 外 ， 有 时 也 用 极 大 似 然 佑 计 、 渐 近 佑 计 等 . 


10.1.3 Monte Carlo 方法 的 精度 分 析 


Monte Carlo 方法 是 以 随机 变量 抽样 的 统计 估 值 去 推断 概率 分 布 的 ， 抽 样 不 
是 总 体 , 这 里 就 有 一 个 误差 佑 计 的 重要 问题 . Monte Carlo 方法 所 能 达到 的 精度 
与 其 应 用 范围 的 大 小 紧密 相关 . 我 们 希望 能 以 较 少 的 试验 次 数 ( 即 较 低 的 费用 ) 
得 到 较 高 的 精度 ， 下 面 讨 论 这 一 问题 . 

设 有 随机 变量 X, 其 抽样 值 为 x1, za -, 现 欲求 其 期 望 值 E(X), 可 以 有 两 种 
方法 . 


1. 随机 投 点 方法 


随机 投 点 方法 ( 见 例 10.3 和 例 10.4), 是 进行 n 次 试验 ， 当 n 充分 大 时 ， 以 
随机 变量 k/n 作为 期 望 值 ECX)) 的 近似 佑 值 ， 即 





E(X) z p — k/n. 
HB kn 次 试验 中 成 功 的 次 数 ， 
若 一 次 投 点 试验 的 成 功 概率 为 p, 并 以 
EN 表明 试验 成 功 ， 
' 0， 表明 试验 失败 ， 
则 一 次 试验 成 功 的 均值 与 方差 为 
E(Xj) = 1-p-0-(1—p)-p, 


Var(X) = Y.pc-0.(1-p)-p!-p»(- p). 


TORT n 次 试验 ， 其 中 次 试验 成 功 ， 则 大 为 具有 参数 为 (n,p) 的 二 项 分 布 . 
此 时 ， 随 机 变量 的 佑 值 为 
P= k/n. 
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显然 ， 随 机 变量 p 的 均值 和 方差 满足 


Bn) -BE( 2) = EA) -=p vap) = fE—2. 





因而 标准 差 S= yp(1 一 p)/n. 当 p = 0.5 时 ， 标 准 差 达到 最 大 . 
现在 讨论 ， 当 试验 次 数 n REK, 不等式 P- pl < = 的 概率 不 小 于 1-a, 
即 
Pi|lp-p| «se 21-2. (10.7) 
这 就 是 说 , 等 式 (10.7) 的 置信 度 为 a, 其 精度 为 e. 例如 , ÆW a = 0.05, € = 0.01, 
则 在 100 次 试验 中 ， 佑 值 p 与 真 值 p 之 差 ， 大约 有 95 次 不 超过 1% 的 误差 . 
由 中 心 极限 定理 可 知 , 当 一 co Bf, (p—p)/5 渐 近 于 标准 正 态 分 布 N(0, 1), 
因此 有 B 
pS EZE < Zapa) —1-a, (10.8) 
其 中 Za 正 态 分 布 的 上 0/2 分 位 点 . 
比较 式 (10.7) 和 式 (10.8), 得 到 
E = Zaps = Zaj2 V p(1 — p)/n, 
从 则 有 


pulp) 
E2 





n> Ze (10.9) 


45] 10.3 是 用 随机 投 点 法 来 估计 圆周 率 r, 下 面 来 计算 它 需要 多 少 次 试验 才能 
达到 精度 要 求 . 
例 10.5 ( 续 例 10.3) 考虑 置信 度 为 5%, 精度 要 求 为 0.01 的 情况 下 , A] 10.3 所 
需 的 试验 次 数 . 

解 : 由 题 意 知 a = 0.05, 因为 Y/4 就 是 模拟 的 期 望 值 , 得 到 p = T/4 = 0.785, 
e = 0.01/4. 查 表 或 经 计算 (qnorm(1-0.05/2)) 得 到 Za = 1.96, 因此 


—|»ü-», | |0.785 x 0.215 x 1.90 
ph. “0/2 (0.01/4)? 





| — 103739. 


其 中 |] 表示 上 取 整 . 
因此 ， 作 100000 次 模拟 ， 得 到 x 的 模拟 值 与 真实 值 有 95% 的 可 能 误差 在 
196 以 内 . 
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表 10.5: 投 点 算法 的 试验 次 数 (a = 0.05) 
e = 0.05 e = 0.01 e = 0.005 e = 0.001 


140 3500 14000 350000 
250 6200 25000 620000 
330 8100 33000 810000 
370 9300 37000 930000 
390 9600 39000 960000 





按 公式 〈10.9), 可 得 到 不 同 精度 = 和 不 同 概率 p 情况 下 随机 投 点 方法 的 试验 
次 数 ， 如 表 10.5 所 示 . 

2. 平均 值 方法 

平均 值 方法 是 用 n 次 试验 的 平均 值 


1 
T= E uan -+ £n) T DX 


作为 X WARE E(X) 的 近似 估 值 . 
RA n 个 独立 同 分 布 的 随机 变量 序列 zi zz … En 每 个 随机 变量 的 均值 为 
p, FEX o, 则 
Tid X32becbxu—npg 


oyn 
浙 近 地 服从 标准 正 态 分 布 ， 也 就 是 说 ， 当 n 一 co 时 ， 有 


a/2 
P SC ex (—2?/2) dz 2 1— o, 
| S Zan} — mfa P2) 
或 者 


21 十 22 十 "十 Zn 一 7 


ovn 








PE- < Zaz von} —1-92. 
€ = Zaj y a? fn, 


从 而 有 
nz Za e. (10.10) 
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式 (10.10) 即 为 平均 值 方法 在 给 定 a 和 = 下 所 需 的 试验 次 数 . 
在 进行 计算 时 ， 通 常 并 不 知道 方差 " ,一般 用 其 估计 值 代替 ， 即 先 作 no 次 
试验 ， 得 到 方差 c^ 的 估计 值 


1 3x 
Wt 
n-li 


在 得 到 5? 后 ， 用 S? 近似 式 (10.10) 中 的 o?, 则 平均 值 方法 的 试验 次 数 为 

n 2 Z238'[e. (10.11) 
Zi Nn no 需要 作 补 充 试验 . 
例 10.6 用 平均 值 法 估计 圆周 率 m, 并 考虑 置信 度 为 5%, 精度 要 求 为 0.01 的 情 
况 下 所 需 的 试验 次 数 . 


解 : 事实 上 , 计算 r/4, 本 质 上 就 是 用 概率 的 方法 计算 积分 有 VIZ de. 也 
就 是 说 ， 随 机 变量 X ~ U10, 1], 令 g(X) = V1 一 X%, 其 期 望 值 为 


zloCOl= f “aes / VIr- T. 
因此 ， 
了 = E[g( X)] ~ 23 Vi- (10.12) 


其 中 a; 是 [0,1] 区 间 上 均匀 分 布 的 随机 数 . 
TEX (10.12) 编写 R 程序 (程序 名 : MC1_2.B) 
MC1_2 <- function(n){ 





x <- runif(n) 
4xsum (sqrt (1-x^2)) /n 
} 
作 10 万 次 模拟 ， 
> Ssource("MC1i 2.R"); MC1_2(100000) 
[1] 3.141816 
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下 面 估计 所 需 的 试验 次 数 . 由 式 (10.10) 可 知 ， 其 关键 是 求 方差 o. 由 统计 
知识 得 到 


1 2 
s - EXO- EUO - f a - asas - (F) 
0 
2 TN 2 
- =- (1) — (.04981641 
此 时 ，a = 0.05, Z,j; = 1.96, e = 0.01/4, 所 以 ， 
Z2 og" 1.962 x 0.04981641 
| 
-| - | | me | 30620. 


可 见 , 达到 同样 精度 的 情况 下 ,用 平均 值 法 的 随机 试验 次 数 只 是 随机 投 点 法 
的 1/3. 从 这 个 例子 可 以 看 出 ， 平 均值 法 要 优 于 随机 投 点 法 . 

从 例 10.6 的 计算 过 程 ， 可 以 得 到 用 平均 值 法 计算 一 般 定 积分 的 方法 . 

如 要 计算 定 积分 /9(z)dz. 4 y= (x — a)/(b — a), WA dy = dz/(b — a), 


1= | sto [ go -oo adu [ nivis 


其 中 h(y) = (b — a)g(a + (b — a)y). 
Æ Y ~ U(0, 1), W 


EWY) = f "ati ri Hoian 


所 以 ， 
~ FD nw) -1 aa o- y) 


i—1 
FE y; 是 [0,1] 区 间 上 均匀 分 布 的 随机 数 . 

综 上 讨论 ， 可 归纳 如 下 : 

(1) Monte Carlo 方法 的 佑 值 精度 。 与 试验 次 数 n 的 平方 根 成 反比 ， 即 s cc 
1/Vn. 者 精度 = 提高 10 倍 ， 则 试验 次 数 n 需要 增加 100 倍 ， 这 意味 着 解 题 的 时 
间 要 慢 100 fir. 故 收敛 速度 慢 是 Monte Carlo 方法 的 主要 缺点 . 

(2) XX (10.9) 和 式 (10.11) RHH: 当 e 一 定时 ， 试 验 次 数 n 取决 于 方差 的 数 
值 ， 即 nx 52. 因而 降低 方差 是 加 速 Monte Carlo 方法 收敛 的 主要 途径 . 

(3) Monte Carlo 方法 的 精度 估计 具有 概率 性 质 ， 它 并 不 能 断言 精度 一 定 小 
Fe, 而 只 是 表明 ， 计 算 精 度 以 接近 于 1 的 概率 不 超过 e. 
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10.2 ”随机 数 的 产生 


在 上 一 方 介绍 的 Monte Carlo 方法 中 ， 需 要 用 到 随机 数 ， 在 这 一 节 介绍 随机 
数 产 生 的 方法 : 

随机 数 产生 的 方法 大 致 可 分 为 三 类 ,第 一 类 是 利用 专门 的 随机 数 表 , 有 一 些 
已 制备 好 的 随机 数 表 可 供 使 用 , 原则 上 可 以 把 随机 数 表 输 入 到 计算 机 中 储存 起 来 
以 备 使 用 ,但 由 于 计算 时 常常 需要 大 量 的 随机 数 而 计算 机 的 储存 量 有 限 ， 因 此 这 
种 方法 一 般 不 采用 . 第 二 类 是 用 物理 装置 即 随机 数 发 生 器 产生 随机 数 ,但 其 成 本 
Am. 第 三 类 是 用 专门 的 数学 方法 用 计算 机 计算 出 来 的 . 这 些 数 一 般 是 按 一 定 规 
律 递 推 计算 出 来 的 ， 因 此 它们 不 是 真正 的 随机 数 ( 称 为 伪 随 机 数 )， 所 得 的 数列 
经 过 一 定时 间 会 出 现 周 期 性 的 重复 . 但 是 ， 如 果 计 算 方法 选 得 恰当 ， 它 们 是 可 以 
同 真 正 的 随机 数 有 近似 的 随机 特征 . 它 的 最 大 优点 是 计算 速度 快 , 占用 内 存 小 ， 
并 可 用 计算 机 来 产生 和 检验 . 

下 面 我 们 介绍 几 种 常用 的 随机 数 产生 的 方法 . 


10.2.1 ”均匀 分 布 随机 数 的 产生 
1. RARA 
用 以 产生 (0, 1) 均匀 分 布 随机 数 的 递 推 公式 为 
z; = Axij,(mod M) | i—1,2,, (10.13) 


AF A ERAT (简称 乘 子 )， M 是 模 数 ， 当 给 定 一 个 初始 值 xo 之 后 ， 就 可 以 
利用 式 (10.13), 计算 出 序列 zi, 22, ……， Te …… 再 取 


Tj = 


Ti 
= (10.14) 
则 六 就 是 均匀 分 布 的 第 i 个 随机 数 . 

由 于 zi 是 除数 为 M 的 被 除数 的 余数 ， 所 以 有 0 < zx; € M, 则 0<r<1. 
因此 序列 {ri} 是 (0, 1) 区 间 上 均匀 分 布 . 由 式 (10.13) 和 式 (10.14) 可 以 看 出 ， 
每 一 个 ri, rn 至 多 有 M 个 互 异 的 值 ， 因 此 vi. ri 是 有 周期 工 的 , 即 工 < M. 
因此 {r} 不 是 真正 的 随机 数列 . 但 是 ， 当 L 充分 大 ， 则 在 一 个 周期 内 的 数 可 能 
经 受 住 独立 性 和 均匀 性 检验 ， 而 这 些 完 全 取决 于 参数 xo. A. M 的 选择 . 一 
些 文献 推荐 下 列 参 数 ， 取 zo = 1 或 正 奇数 ，M = 2*, 入 = D", 其 中 gq 都 
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EER. Hk EAK, MLER. XM EEBVDDEON n. — k Xon. q 是 满足 
52+ < 2^ 的 最 大 整数 . 


2. 混合 同 余 法 


混合 同 余 法 的 递 推 公式 为 
zi = (Ax; c)(mod M), i= 1,2,.…., (10.15) 
pta 2 (10.16) 


通过 适当 的 选取 参数 可 以 改善 伪 随 机 数 的 统计 性 质 . 例如 , cp c 取 正 整数 ，M = 
2*, A = 4q + 1, xo 取 任 意 非 负 整 数 ， 可 产生 随机 性 好 ， 且 有 最 大 周期 L 一 2^ 的 
序列 Us 

10.2.2 ”均匀 随机 数 的 检验 


由 于 算法 产生 的 随机 数 是 伪 随 机 数 , 因此 需要 对 产生 的 伪 随 机 数 进行 统计 检 
验 ， 下 面 介绍 两 种 常用 的 检验 方法 . 

1. 参数 检验 

大 总 体 X 服从 (0,1) 区 间 上 的 均匀 分 布 ， 则 
Var(X) = E(X’) - [EJ = 五 


2 4 


BOA ,Var — E(X*) - [EG] - 


车 71,72,… de n TOR B APR X 的 独立 的 观测 值 ， 令 
1e ——— ee 
=z— L , 2m 2 
则 它们 的 均值 和 方差 分 别 为 
1 1 -zA 1 T 
rT) 一 一 rT) = 一 一 2 一 一 2 一 ”一 一 一 
E(7)= 2 Var (T) Ir E (r ) z Var ( ) "m 


由 中 心 极限 定理 ， 当 n 较 大 时 统计 量 





Peu Um m (r-5). (10.17) 
ea CU mel). oum 
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渐 近 地 服 从 标准 正 态 分 布 N(0, 1). 当 给 定 显著 性 水 平 o 后 ， 即 可 根据 正 态 分 布 
表 确 定 的 临界 值 ， 判 断 7 X 的 均值 E(X) 和 7? X? 的 均值 E(X?) 的 差异 
是 否 显 著 ， 从 而 决定 能 否 把 roro ,rn 看 成 来 自 总 体 为 区 间 (0,1) 上 均匀 分 布 
的 随机 数 X 的 ”个 独立 的 取 值 ， 检 验 时 ， 一 般 可 取 显 著 性 水 平 a = 0.05, 此 时 
临界 值 为 1.96, 即 当 [uj > 196 时 ， 认 为 有 显著 差异 

2. 均匀 性 检验 

随机 数 的 均匀 性 检验 又 称 频率 检验 , 它 用 来 检验 经 验 频率 和 理论 频率 是 否 有 
显著 性 差异 . 

把 区 间 [0, D 分 成 等 分 ， 以 [Lk 6 一 工 2 内 表示 第 1 个 子 区 
Wl. Jm rs 是 [0.1) 上 均匀 分 布 的 随机 数 X 的 一 个 取 值 ， 则 它 落 在 每 个 子 区 间 的 
概率 均 应 等 于 这 些 子 区 间 的 长 度 z 故 n 个 点 中 落 在 第 i 个 子 区 间 上 的 平均 数 
为 mi = npi = 大, BEER E rora or 中 属于 第 i 个子 区 间 的 数目 为 n WA 
计量 














k 
dcm (n; muss " 59 (n; " t). (10.19) 
i i=1 


渐 近 地 服从 自由 度 为 上 一 1 Bg o? du. 据 此 进行 显著 性 检验 ， 通 常 取 显著 性 
水 平 a = 0.05, 由 自由 度 为 一 1 的 x* 分 布 表 查 出 临界 值 Xo.0s(k — 1). 如果 
X? > Xb.os( — 1), 则 拒绝 均匀 性 假设 . 

3. 独立 性 检验 

独立 性 检验 主要 检验 随机 数 71,72,.…, rn 中 前 后 的 统计 相关 性 是 否 显 著 . 我 
们 知道 ， 两 个 随机 变量 的 相关 系数 反映 了 它们 之 间 的 线性 相关 程度 . 者 两 个 随机 
变量 相互 独立 ， 则 它们 的 相关 系数 必 为 0( 反 之 不 一 定 ). 因此， 可 用 相关 系数 来 
检验 随机 变量 的 独立 性 . 

给 定 随机 数 71,72,.…,7n, 计算 前 后 相距 为 的 样本 的 相关 系数 


n—k 
1 2 2 
pk = (去 — A. riri4& — (T) )/5 Qk212,, (10.20) 
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对 知 干 个 不 同 的 k 值 做 检验 ， 提 出 原 假设 Ho : px = O. ABER, M 
当 n 一 上 充分 大 时 ， 统 计量 px 渐 近 于 标准 正 态 分布 N(0,1). 在 给 定 显 著 性 水 平 
下 ， 者 拒绝 原 假设 ， 则 可 认为 ninos coins 有 一 定 的 线性 相关 性 ， 则 它们 不 是 相 
互 独立 的 . 

随机 数 的 统计 检验 除 上 述 三 种 检验 外 , 还 有 其 它 的 检验 方法 ,还 可 以 用 到 前 
面 章 节 讲 过 的 参数 或 非 参数 检验 方法 ， 这 里 就 不 一 一 介绍 了 . 





10.2.3 ”任意 分 布 随机 数 的 产生 


1. 离散 型 随机 变量 的 情形 
设 随机 变量 X 具有 分 布 律 P(X = n) = pui = 42 令 p = 0, 
-Xr i 二 1,2,…, 将 (03 作为 区 间 (0,1) 上 的 分 位 点 . 设 7 是 区 间 (0,1) 

上 均匀 分 布 的 随机 变量 ， A Báo p67D er x p m, 4 X — cu YU 











具体 的 执行 过 程 是 ， 每 产生 (0,1) 区 间 上 的 一 个 随机 数 7, 若 p? <r x pO, W 


例 10.7 产生 有 具有 分 布 律 





的 离散 型 随机 变量 X 的 随机 数 . 
解 : 设 71,72,…, Tn 是 (0,1) 上 均匀 分 布 的 随机 数 ， 令 
0, 0< r; € 03, 
zi= 1, 09 r; 06, 
2, 0.6<r;<1, 


则 31,422,777, Ln 是 具有 X 的 分 布 律 的 随机 数 . 
例 10.8 产生 Possion 分 布 的 随机 数 
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解 : Possion 分 布 是 离散 型 分 布 ， Possion 分 布 的 分 布 律 为 


入 ke 一 





Pix=kj= 2 k=, (10.21) 
因此 ， 由 (0,1) 区 间 上 均匀 分 布 产 生 的 随机 数 7, 并 给 出 参数 和 值 之 后 ， 可 由 
e k—1 X E k x 
e 2j S RES 2o k20,12,--., (10.22) 
j=0 j—0 


确定 出 上 值 ， FS X =k, 则 X 为 具有 Possion 分 布 (10.21) 的 随机 数 . 

2. 连续 型 随机 变量 的 情形 

一 般 地 讲 ， 对 具有 给 定 分 布 的 连续 型 随机 变量 X, 均 可 利用 (0,1) KE EH 
匀 分 布 的 随机 数 来 产生 分 布 的 随机 数 ， 其 中 最 浓 用 的 方法 是 反 函 数 法 . 

设 连续 型 随机 变量 X 的 概率 密度 函数 为 fa), 令 


fe FO, 


则 7 X (0.1) 区 间 上 均匀 分 布 的 随机 变量 ， 当 给 出 了 (0,1) 区 间 上 的 均匀 随机 数 
7T1,72,* 77 EF, 可 根据 方程 


i jade desig. (10.23) 
解 出 Zu 2, 此 时 £1, x2,… 可 作为 随机 变量 X 的 随机 数 . 


Bj 10.9 产生 参数 为 和 的 指数 分 布 的 随机 数 . 
解 ， 由 于 指数 分 布 的 概率 密度 为 f(x) = Ae (v > 0), 由 公式 (10.4) 得 到 
no f amice, i—1,2,., 
0 
即 
Ti = -ih(-n) i= quae 
由 于 1 一 xi 与 7; 同 分 布 ， 故 上 式 可 简化 为 


1 
天 二 一 全 人 1 一 2,.…. (10.24) 


反 函 数 方法 是 一 种 普通 的 方法 ， 但 是 当 反 函数 难以 求 得 时 ， 此 方法 不 宜 使 
用 . 
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10.2.4 正 态 分 布 随 机 数 的 产生 
这 里 介绍 两 种 产生 正 态 分 布 随机 数 的 方法 . 
1. 极限 近似 法 
W ri Tratt, Ta 是 (0,1) KEE n 个 独立 的 均匀 分 布 的 随机 数 ， 由 中 心 极 限 
定理 得 到 
> 7i 一 0 /2 
(dod 
nae (10.25) 
近似 地 服从 正 态 分 布 N(0,1). 为 了 保证 一 定 的 精度 ， 式 (10.25) 中 的 n 应 取得 足 
够 大 ， 一 般 大 约 取 n = 10 左右 ， 为 方便 起 见 ， 可 取 n= 12. 此 时 ， (10.25) 有 最 
简单 的 形式 


当 7; 是 (0,1) 上 的 随机 数 ， 则 1 一 也 是 (0,1) 上 的 随机 数 ， 因 此 式 (10.26) 
可 改写 为 


12 
这 三 3n — Ti. (10.27) 
i-l i=7 
知 随 机 数 z 服从 N(0,1) mr, & 
y =x + hH, (10.28) 
W y EES N (u, 07) 的 随机 数 . 由 此 可 以 得 到 任意 参数 uso? 的 正 态 分 布 的 随机 
数 . 
2. 坐标 变换 法 
可 以 证 明 ， 有 如 下 关系 ， 当 71,72 是 两 个 相互 独立 的 (0,1) 区 间 上 均匀 分 布 
的 随机 数 时 ， 作 变换 
zı = y —2lnrı cos(2rr2), | 29 = y —2 ln rı sin(2rrə). (10.29) 


则 21, 2 是 两 个 独立 的 标准 正 态 分 布 N(0,1) 的 随机 数 ， 再 由 式 〈10.28), 可 以 得 
到 任意 参数 的 正 态 分 布 IN (us 07) 的 两 个 独立 的 随机 数 . 
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10.2.5 HR 软件 生成 随机 数 

前 面 讲 了 各 种 产生 随机 数 的 方法 ， 实际 上 ， 有 很 多 软件 可 以 自动 生成 各 种 分 
布 的 随机 数 . SUA R 软件 为 例 ， 介 绍 用 计算 机 软件 生成 随机 数 的 方法 . 

E R 软件 中 列 出 了 各 种 分 布 ( 见 第 3 章 的 表 3.1), 在 这 些 分 布 的 函数 前 加 r, 
则 表示 是 生成 该 分 布 的 随机 数 . 如 

(1) runif 一 产生 均匀 分 布 的 随机 数 ， 参 数 为 n,a,5, 其 中 nn 为 随机 数 的 个 
数 ，a,5 为 区 间 (a,b) 端点 值 ， 当 a,b Aik, Jy (0,1) 区 间 上 的 随机 数 . 

(2) rnorm 一 产生 正 态 分 布 的 随机 数 ， 参 数 为 n, 1,o, RE n 为 随机 数 的 个 
数 ， 为 均值 ，o 为 标准 差 ， 当 do 省 缺 时 ， 为 标准 正 态 分 布 N(0,1) 的 随机 
Te. 

(3) rpois 一 产生 Poisson 分 布 的 随机 数 ， 人 参数 为 n, A, 其 中 n 为 随机 数 的 个 
数 ， 入 Jj Poisson 分 布 的 参数 . 

R 软件 还 可 以 产生 其 他 分 布 的 随机 数 ， 这 里 就 不 一 一 列举 了 . 





10.3 ”系统 模拟 


系统 模拟 是 研究 系统 的 重要 方法 . 对 于 一 个 结构 复杂 的 系统 ， 要 建立 一 个 数 
学 模型 来 描述 它 是 非常 困难 的 ， 其 至 是 做 不 到 的 . 即使 能 构造 出 数学 模型 ， 但 由 
于 结构 复杂 ， 采 用 解析 的 方法 得 到 模型 的 解 也 并 非 易 事 ， 或 者 根本 得 不 到 解析 
解 ， 有 些 系统 ， 虽 然 结构 并 不 复杂 ， 但 其 内 部 机 理 有 不 明确 的 “法 箱 ” 系 统 ， 因 
此 无 法 采用 解析 的 方法 来 分 析 问 题 . 对 于 这 类 的 系统 , 采用 模拟 的 方法 不 失 为 一 
种 求解 的 好 方法 . 


10.3.1 ”连续 系统 模拟 


状态 随 着 时 间 连 续 变 化 的 系统 ， 称 为 连续 系统 . 我 们 知道 ， 电 子 计算 机 的 工 
作 状 态 是 离散 化 和 数字 化 的 . 因此 ， 对 连续 系统 的 计算 机 模拟 只 能 是 近似 的 ， 获 
得 的 是 系统 状态 在 一 些 离 散 抽 样 点 上 的 数值 . 不 过 ， 只 要 这 种 近似 达到 一 定 的 精 
度 ， 也 就 可 以 满足 要 求 了 . 

连续 系统 模拟 的 一 般 方法 是 首先 建立 系统 的 连续 模型 , 然后 转化 为 离散 模型 
并 对 该 模型 进行 模拟 ， 现 举例 说 明 . 
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例 10.10 (追逐 问题 ) 在 正方 形 4BOD 的 四 个 顶点 各 有 一 人 ， 在 某 一 时 刻 ， 四 人 
同时 出 发 以 匀速 v 走向 顺 时 针 方 向 的 下 一 个 人 . 如 果 他 们 的 方向 始终 保持 对 准 目 
标 ， 则 最 终 将 按 螺旋 状 曲线 汇合 于 中 心 点 O. 试 求 出 这 种 情况 下 每 个 人 的 轨迹 . 

解 : 这 一 问题 的 模拟 方法 是 ， 建 立 平面 直角 坐标 系 ， 以 时 间 间 隔 At 进行 采 
样 ， 在 每 一 时 刻 t 计算 每 个 人 在 下 一 时 刻 t 十 At 时 的 坐标 . 不 妨 设 甲 的 追逐 对 
象 是 乙 ， 在 时 间 t, 甲 的 坐标 为 (zt y), 乙 的 坐标 为 (x2,y2), 那么 甲 在 t 十 At 时 
的 坐标 为 (£1 + v At cos0, yı + vAtsin 0), 其 中 


e mu P E d= y (za — z1)? + (ya — y1)”. 


选取 足够 小 的 At, 模拟 到 甲 、 乙 的 距离 小 于 vAt 为 止 . 

以 下 是 模拟 的 R 程序 (程序 名 : trace.R), ABCD 的 四 个 顶点 的 初始 位 置 
为 A(0,1), B(1, 1), C(1,0), D(0,0). 

#### 画 出 A, B, C, D 和 〇 五 点 的 位 置 ， 再 作 标 记 

plot(c(0,1,1,0), c(0,0,1,1), xlab =" ", ylab = " ") 

text(0, 1, labels-"A", adj=c( 0.3, 1.3)) 

text(1, 1, labels-"B", adj=c( 1.5, 0.5)) 

text(1, 0, labels-"C", adj=c( 0.3, -0.8)) 

text(0, 0, labels-"D", adj=c(-0.5, 0.1)) 

points(0.5,0.5); text(0.5,0.5,1abels-"0",adj-2c(-1.0,0.3)) 

#### 将 计算 出 的 各 点 位 置 存 入 矩阵 X，Y 中 ， 

#### X 是 ABCD WA xt, Y € ABCD 四 点 的 y 值 

delta_t<-0.01; n=110 


x«-matrix(0, nrow=5, ncol-n); x[,1]<-c(0,1,1,0,0) 


cos = 



































y<-matrix(0, nrow=5, ncol=n); y[,1]<-c(1,1,0,0,1) 
d<-c (0,0,0,0) 
for (j in 1:(n-1)){ 
for (i in 1:4){ 
d[i]<-sqrt((x[i+1, j]-x[i,j])^2+(y[i+1, j]-y[i,j])^2) 
x[i,j+1]<-x[i,j]+delta_t*(x[i+1,j]-x[i,j])/d[i] 
y[i,j+1]<-y[i,j]+delta_t*(y[i+1,j]-y[i,j])/d[i] 
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x[5,j+1]<-x[1, j+1]; y[5, j+1]<-y[1, j+1] 
} 
#### 画 出 相应 的 曲线 
for (i in 1:4) lines(x[i,], yli,] 
连接 四 个 人 在 各 时 刻 的 位 置 ， 就 得 到 所 求 的 轨迹 ， 其 图 形 如 图 10.3 所 示 . 
































图 10.3: 追逐 问题 


连续 系统 的 描述 常常 用 到 常 微分 方程 或 微分 方程 组 , 而 求解 方法 则 需要 用 求 
解 微分 方程 的 数值 方法 ， 如 Runge-Kutta 法 等 ， 有 关连 续 系统 的 模拟 的 进一步 
讨论 ， 大 家 可 以 参见 有 关 书 籍 ， 这 里 就 不 论述 了 . 
10.3.2 ”离散 系统 模拟 
离散 系统 是 指 系统 状态 只 在 有 限 的 时 间 点 ,或 无 限 但 可 数 的 时 间 点 上 发 生变 
化 的 系统 .假设 离散 系统 状态 的 变化 是 在 一 个 时 间 点 上 瞬间 完成 的 ， 
例 10.11 用 模拟 的 方法 求解 例 10.1. 
解 : 设 
T 一 火车 从 A 站 出 发 的 时 刻 ; 
一 火车 从 A 站 到 B 站 的 运行 时 间 ，; 
73 — 某 人 到 达 B 站 的 时 刻 . 
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该 人 能 赶 上 火车 的 充分 必要 条 件 是 TI 十 T2 > T. 
假设 Ti, To, Ts 均 是 随机 变量 , H To ~ N(30,2°), Ti, Ts 的 分 布 律 由 表 10.3 
和 表 10.4 所 示 . 
Y ri, ro 是 (0,1) 区 间 上 均匀 分 布 的 随机 数 ， 则 T 和 的 分 布 律 的 模拟 公 
式 为 
28,，0<r2<0.3, 
30，0.3 < r4 € 0.7, 


i ee 
ti = 5, 0.7 «mr, < 0.9, t3 = 
10, 09«n € L 


32, 0.7 < r2 < 0.9, 
34, 0.9< r< 1. 
Ji] ti RI ts UAR Ti, Ts 的 一 个 观察 值 . 
4 t 是 服从 正 态 分 布 Y(30,22) 的 随机 数 ， 则 将 to 看 成 火车 运行 时 间 T2 的 
一 个 观察 值 . 
在 每 次 试验 中 ， 产 生 两 个 V0(0,1) 的 随机 数 ti, ts, 一 个 N(30,2”) 的 随机 数 
ta, 25 t4 tt > t3, 认为 试验 成 功 (能 够 赶 上 火车 ). FE n 次 试验 中 ， 有 次 成 
功 ， 则 用 频率 k/n 作为 此 人 赶 上 火车 的 概率 ， 当 n 很 大 时 ， 频 率 值 与 概率 值 近 
似 相等 . 
以 下 是 求解 过 程 的 R 程序 (程序 名 ;MC2.R). 
MC2<-function(n){ 
ri«-runif(n); r2«-runif(n); t2«-rnorm(n,30,2) 
ti«-array(0,dim-c(i,n)); t3«-ti; 
for(i in 1:n)t 
if (ri[i]«-0.7)1 
ti[i]«-O 
Jelse if (ri[i]«-0.9)1 
ti[i]«-5 
jJelse 
t1[i]«-10 
} 
for(i in 1:n)t 
if (r2[i]«-0.5( 
t3[i]«-28 
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}else if (r2[i]«-0.7)1 
t3[i]<-30 
}else if (r2[i]<=0.9){ 
t3[i]<-32 
}else 
t3[i]<-34 
F 
k<-0 
for(i in 1:n) 
if (t1[i]+t2[i]>t3[i]) k<-k+1 
k/n 

} 

作 一 万 次 试验 ， 得 到 

> source("MC2.R"); MC2(10000) 

[1] 0.6306 
此 人 赶 上 火车 的 概率 大 约 是 0.63. 

例 10.12 A AER RARI AR. 

解 : 核反应 堆 屏蔽 层 是 用 一 定 厚 度 的 铅 (Pb), 把 反应 堆 四 周 包围 起 来 ， 用 以 
阻挡 或 减弱 反应 堆 发 出 的 各 种 射线 . 在 各 种 射线 中 , 中 子 对 人 体 伤害 极 大 , 因此 ， 
屏蔽 设计 ， 主 要 是 了 解 中 子 穿 透 屏蔽 的 百分比 (或 概率 ), 这 对 反应 堆 的 安全 运行 
是 至 关 重 要 的 . 首先 考虑 一 个 中 子 进 入 屏蔽 层 后 运动 的 物理 过 程 : 假定 屏蔽 层 是 
理想 的 均匀 平板 ， 中 子 以 初速 vo 和 方向 角 a HAREN (ILE 10.4), 运动 一 
段 距离 后 ， 在 xo 处 与 铅 核磁 撞 之 后 ， 中 子 获得 新 的 速度 及 方向 (v, 01), 再 运动 
一 段 距离 后 ， 与 馈 核 第 二 次 碰撞 ， 并 获得 新 的 状态 (v2, 0) 等 等 ， 经 若干 次 碰撞 
后 ， 发 生 以 下 情况 之 一 而 终止 运动 过 程 ， 

(1) 弹 回 反应 堆 ， (2) 穿 透 屏蔽 层 ，(3) 第 i 次 碰撞 后 ,中 子 被 屏蔽 层 吸收 ， 

下 面 对 问 题 做 者 干 简化 与 假设 ; 

(1) 假定 屏蔽 层 平行 板 的 厚度 为 D = 3d, 其 中 d 为 两 次 碰撞 之 间 中 子 的 平均 
游 动 距离 ;每 次 碰撞 后 中 子 因 损 失 一 部 分 能 量 而 速度 下 降 ， 假 设 在 第 10 次 碰撞 
后 ， 中 子 速度 下 降 到 某 一 很 小 的 数值 而 终止 运动 (被 吸收 ). 由 于 对 穿 透 屏蔽 层 的 
中 子 感 兴趣 ， 故 用 (1,0) 描述 第 ;次 碰撞 后 中 子 的 运动 状态 ， 其 中 v; 为 中 子 在 
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Uo 


中 子 
a 
a 一 中 子 入 射 角 ， D 一 屏蔽 层 厚 度 
9 一 ”中 子 第 一 次 碰撞 弹射 角 
图 10.4: 中 了 穿 入 屏蔽 层 的 运动 








| 


2 轴 上 的 位 置 ， 4 中 子 运动 的 方向 与 x 轴 的 夹 角 . 

(2) 假定 中 子 在 屏蔽 层 内 相继 两 次 碰撞 之 间 游 动 的 距离 服从 指数 分 布 ， 中 子 
经 碰撞 后 的 弹射 角 服从 (0, 27) 上 的 均匀 分 布 ， 从 而 得 到 第 i 次 碰撞 后 中 子 在 屏 
BOB LEE 





zi = ti-1 + Rjcos0;, | $i—]1,2,--.,10. (10.30) 


其 中 0; 是 中 子 第 i 次 碰撞 后 的 弹射 角度 ， Ri 是 中 子 从 第 i 一 1 次 碰撞 到 第 i 次 
碰撞 时 所 游 动 的 距离 ， 由 假设 可 能 得 到 ， 


R; = d. (—Inrj), 0; = 2rui, i = 1,2,--.,10. 


其 中 d 为 两 次 碰撞 之 间 中 子 的 平均 游 动 距离 ， mi wi 是 (0,1) 区 间 上 均匀 分 布 的 
随机 数 ， 式 (10.30) 表明 了 中 子 在 屏蔽 层 内 运动 的 概率 模型 ， 可 见 中 子 运动 的 位 
置 和 方向 都 是 随机 的 . 

(3) 在 第 i 次 碰撞 后 ， 中 子 的 位 置 z; 有 三 种 情况 发 生 : 

i) z; < 0, 中 子 返回 反应 堆 ; 

i) zi > D, 中 子 穿 出 屏 项 层 ; 
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ï) 0 < x; < D, Zr i « 10, 则 中 子 在 屏蔽 层 内 继续 运动 ; d à — 10, 则 中 子 被 
屏蔽 层 吸收 . 
中 子 运 动 的 三 种 模式 如 图 10.5 Br. 为 简化 问题 ， 假 定 中 子 入 射 角 a = 0( 即 中 


返回 


吸收 


图 10.5: 中 子 在 屏蔽 层 内 运动 的 三 种 模式 











子 以 垂直 方向 穿 入 屏蔽 居 ), 屏蔽 层 的 厚度 为 D = 3d. 
下 面 是 用 R 软件 编写 的 模拟 程序 (程序 名 : MC3.R). 
MC3<-function(n){ 
D<-3; pi<-3.1416; back<-0; absorb<-0; pierce<-0 
for (k in 1:n){ 
x<- -log(runif(1)) 
for (i in 1:10){ 
index <- 1 
r <- runif (2); R <- -log(r[1]); t <- 2*pi*r [2] 
x <- x + R * cos(t) 
if (x«0) { 
back«-back*i; index«-0; break 
Jelse if (x>D){ 
pierce«-pierce*i; index«-0; break 
jJelse 


next 
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if (index--1) 
absorb«-absorb-*1 
} 
data.frame(Pierce-pierce/n*100, Absorb=absorb/n*100, 
Back=back/n*100) 
} 


表 10.6 列 出 的 是 上 述 程序 计算 的 结果 . 
re | mon 


PTRA 返回 (76 


100 54.0 
1000 55.4 
3000 56.4 
5000 57.0 





K 10.6 表明 ， 取 屏蔽 层 厚度 D = 3d 是 不 合适 的 ， 因 为 此 时 中 子 穿 透 屏蔽 层 
的 百分比 在 1/3 左右 .而 在 实际 应 用 中 ， 要 求 中 子 穿 透 屏蔽 层 的 概率 极 小 ， 一 般 
数量 级 为 1076 ~ 1079, 即 穿 入 屏蔽 层 的 中 子 若 为 几 百 万 个 ， 也 只 能 有 几 个 中 
子 穿 过 屏蔽 层 . 问题 是 多 厚 的 屏蔽 层 才 能 使 它 被 穿 透 的 概率 Wp < 1079? 

值得 注意 的 是 ， 仅 模拟 5000 个 中 子 的 运动 ， 就 用 其 穿 透 屏 蔽 层 的 频率 来 估 
计 穿 透 屏蔽 层 的 概率 总 在 “勉强 ”之 嫌 ， 因 为 这 时 的 模拟 精度 只 有 196, 欲 提 高 模 
拟 精 度 ， 应 适当 增加 模拟 次 数 . 第 二 个 问题 是 ， 需 要 模拟 多 少 个 中 子 的 运动 ， 才 
能 用 频率 估计 其 概率 ? 

先 回答 第 二 个 问题 . 由 10.1 节 关 于 模拟 精度 与 模拟 次 数 的 讨论 , 由 式 (10.9) 
可 以 得 到 ， 若 使 模拟 精度 达到 千 分 之 一 ， 则 模拟 次 数 要 在 10° 次 以 上 . 由 于 中 子 
穿 透 概率 在 1079 以 下 ， 所 以 其 精度 至 少 应 达到 这 个 数量 级 ， 那 么 模拟 次 数 就 应 
在 107? 次 以上， 这 一 要 求 在 通常 的 情况 下 ， 显 然 是 行 不 通 的 . 

我 们 采用 如 下 的 解决 办 法 . 将 均匀 平行 板 分 为 厚度 相同 的 m 层 ， 只 取 一 层 
ERW. 设 中 子 在 这 一 层 中 吸收 和 弹 回 的 概率 之 和 为 W, 则 穿 过 一 层 的 概率 是 
(1 一 W), Bii 253€ m 层 的 概率 是 (1— W)". 由 于 中 子 穿 过 一 层 的 平均 速度 有 所 
下 降 ， 因 而 总 穿 透 概率 比 (1 一 Wo)" 要 小 . 
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用 Monte Carlo 方法 ， 先 模拟 10000 个 中 子 的 运动 时 ， 可 以 保证 (1 一 W) 的 
精度 要 小 于 196. £8 m 层 后 有 (1 一 W)” < (0.01)m, ft m = 3, 就 可 获得 穿 透 
概率 (1 一 环 ) < (0.01)? = 1079. 这 样 处 理 后 ， 不 必 作 高 达 10 的 实验 ， 只 需 作 
104 次 试验 就 可 达到 1079 的 精度 ， 这 一 改进 比 直接 方法 大 大 加 快 了 收敛 速度 ， 
减少 了 模拟 时 间 . 

利用 R 程序 (MC3.R), 作 10000 次 模拟 ,得 到 ， 当 D = 3d 时 ， 穿 透 概率 为 
Wsa < 1/3, 问题 是 多 厚 的 屏蔽 层 才 能 使 Wp < 0.01? 

设 需 要 的 屏蔽 厚度 为 z, M (Wa4)* < 0.01, 或 3* > 100, 即 

lgl100 2 _ 
lg3 — 047712 





4.1918. 


即 屏蔽 层 的 厚度 在 达到 4.1918 D ~ 13d, J BEDS TET FRESKE 0.01. 
这 时 可 以 回答 第 一 个 问题 了 ， 若 使 Wo < 1079, 则 总 厚度 为 


TD = 3x = 39d. 











也 就 是 说 ， 屏 项 层 总 厚度 为 39d 时 ， 可 使 中 子 穿 透 屏蔽 层 的 概率 Wp < 1075. 


10.4. 模拟 方法 在 排队 论 中 的 应 用 


排队 论 (Queueing Theory) 又 称 随 机 服务 系统 ， 是 通过 研究 各 种 服务 系统 等 
待 现象 中 的 概率 特征 ， 从 而 解决 服务 系统 最 优 设计 与 最 优 控 制 的 一 种 理论 . 

排队 论 属于 随机 过 程 的 一 部 分 , 这 里 以 排队 模型 为 例子 来 说 明 此 类 问题 的 随 
机 模拟 方法 . 在 介绍 模型 方法 之 前 ， 先 简单 介绍 排队 论 的 基本 概念 . 


10.4.1 ”排队 服务 系统 的 基本 概念 


1. 排队 的 例子 
例 10.13 某 维 修 中 心 在 周末 只 安排 一 名 员工 为 顾客 提供 服务 ， 新 来 维修 的 顾客 
到 达 后 ， 若 已 有 顾客 正在 接受 服务 ， 则 需要 排队 等 待 . 车 排队 的 人 数 过 多 ， 势 必 
会 造成 顾客 抱 忽 ,会 影响 到 公司 产品 的 销售 ， 若 维修 人 员 多 ,会 增加 维修 中 心 的 
支出 ， 如 何 调整 两 者 的 关系 ， 使 得 系统 达到 最 优 . 
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例 10.13 是 一 个 典型 的 排队 的 例子 ， 关 于 排队 的 例子 有 很 多 ， 例 如 :上 下 班 
坐 公交 和 车， 等待 公交 车 的 排队 ; 顾客 到 商店 购物 形成 的 排队 ; 病人 到 医院 看 病 形 
成 的 排队 ; 故 售 票 处 购 票 形成 的 排队 等 ， 男 一 种 排队 是 物 的 排队 ， 例 如 文件 等 待 
打印 或 发 送 ;路 口红 灯 下 面 的 汽车 、 自 行车 通过 十 字 路 口 . 

排队 现象 是 由 两 个 方面 构成 ， 一 方 要 求 得 到 服务 ， 另 一 方 设法 给 予 服务 . 我 
们 把 要 求 得 到 服务 的 人 或 物 (设备 ) 统称 为 顾客 、 给 予 服务 的 服务 人 员 或 服务 机 
构 统称 为 服务 员 或 服务 台 . 顾客 与 服务 台 就 构成 一 个 排队 系统 . 或 称 为 随机 服务 
系统 ， 显然， 缺少 顾客 或 服务 台 任何 一 方 都 不 会 形成 排队 系统 . 

对 于 任何 一 个 排队 服务 系统 , 每 一 名 顾客 通过 排队 服务 系统 总 要 经 过 如 下 过 
程 : 顾客 到 达 、 排 队 等 待 、 接 受 服务 和 离 去 ， 其 过 程 如 图 10.6 所 示 . 


服务 系统 








顾客 总 体 





图 10.6: 服务 系统 的 描述 


2. 排队 服务 系统 的 基本 概念 

(1) 输入 过 程 

输入 过 程 是 描述 顾客 来 源 及 顾客 是 按 怎 样 的 规律 抵达 排队 系统 .。 a) 顾客 源 
总 体 : 顾客 的 来 源 可 能 是 有 限 的 ， 也 可 能 是 无 限 的 ， 例 如 工厂 内 发 生 故 障 待 修 的 
机 器 是 有 限 的 ; 到达 和 窗口 购 票 的 顾客 总 体 可 以 看 成 是 无 限 的 .b) 到 达 的 类 型 ， 
顾客 是 单个 到 达 , 或 是 成 批 到 达 , 例如 工厂 内 发 生 故 障 待 修 的 机 器 是 单个 到 达 ， 
在 库存 问题 中 ， 进 货 看 成 顾客 到 达 、 就 是 成 批 到 达 的 例子 . c) 相继 顾客 到 达 的 
间隔 时 间 :， 通常 假定 是 相互 独立 、 同 分 布 的 ， 有 的 是 等 距 间 隔 时 间 ， 有 的 是 服从 
Poisson 分 布 ， 有 的 是 服从 天 阶 Erlang 分 布 . 

(2) 排队 规则 

排队 规则 是 指 服务 允许 不 允许 排队 ， 顾 客 是 否 愿 意 排队 . 常见 的 排队 规则 有 
如 下 几 种 情况 a) 损失 制 排队 系统 : 顾客 到 达 时 , 知 有 服务 台 均 被 占 ， 服 务 机 构 
又 不 允许 顾客 等 待 ， 此 时 该 顾客 就 自动 辞去 , 例如 通常 使 用 的 损失 制 电 话 系 统 . 
b) 等 待 制 排队 系统 : 顾客 到 达 时 . 若 所 有 服务 台 均 被 占 ， 他 们 就 排队 等 待 服务 . 
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在 等 待 制 系统 中 ， 服 务 顺序 又 分 为 : 先 到 先 服务 ， 即 顾客 按 到 达 的 先后 顺序 接受 
服务 ;后 到 先 服 务 ， 例 如 情报 系统 、 天 气 预报 资料 总 是 后 到 的 信息 越 重要 ， 要 先 
处 理 ; 随 机 服务 ， 即 在 等 待 的 顾客 中 随机 地 挑选 一 个 顾客 进行 服务 ,例如 电话 员 
接线 就 是 用 这 种 方式 工作 ， 有 优先 权 的 服务 ， 即 在 排队 等 待 的 顾客 中 . 茶 些 类 型 
的 顾客 具有 持 殊 性 ， 在 服务 顺序 上 要 给 予 特别 待遇 ， 让 他 们 先 得 到 服务 ， 例 如 病 
危 人 先 治 疗 ， 带 小 孩 的 顾客 先进 站 等 . c) 混合 制 排队 系 统 ， 损失 制 与 等 符 制 的 
混合 , 分 为 队长 ( 容量) 有 限 的 混合 制 系统 ， 等 待 时 间 有 限 的 混合 制 系统 ， 以 及 
逗留 时 间 有 限制 的 混合 系统 . 

(3) 服务 机 构 

服务 机 构 主 要 包括 以 下 几 个 方面 : a) 服务 台 的 数目 ,在 多 个 服务 台 的 情形 
下 ， 是 串联 或 是 并 联 : b) 顾客 所 需 的 服务 时 间 服 从 什么 样 的 概率 分 布 ， 每 个 顾 
客 所 需 的 服务 时 间 是 否 相互 独立 ， 是 成 批 服务 或 是 单个 服务 等 . 常见 顾客 的 服务 
时 间 分 布 有 : 定 长 分 布 、 指 数 分 布 、 超 指数 分 布 、k 阶 Erlang 分 布 、 几 何 分 布 、 
一 般 分 布 等 . 


3. 符号 表示 
排队 论 模型 的 记号 是 20 世纪 50 ERIH D. G. Kendall ( 肯 达 尔 ) 引入 的 ， 
通常 由 3 ~ 5 个 英文 字母 组 成 ， 其 形式 为 
A/ B/C [n 


其 中 4 表示 输入 过 程 ， B 表示 服务 时 间 ， C 表示 服务 台数 目 ， n 表示 系统 空 
间 数 .例如 : 

(1) M/M/S/oo 表示 输入 过 程 是 Poisson 流 ， 服 务 时 间 服 从 指数 分 布 ， 系 统 
有 9 个 服务 台 平行 服务 ， 系 统 容 量 为 无 穷 的 等 待 制 排队 系统 . 

(2) M/G/1/oo 表示 输入 过 程 是 Poisson 流 ， 顾 客 所 需 的 服务 时 间 为 独立 、 
服从 一 般 概率 分 布 ， 系 统 中 只 有 一 个 服务 台 ， 容 量 为 无 穷 的 等 待 制 系统 . 

(3) GI/M/1/oo 表示 输入 过 程 为 顾客 独立 到 达 且 相继 到 达 的 间隔 时 间 服 从 
一 般 概率 分 布 ， 服 务 时 间 是 相互 独立 、 服 从 指数 分 布 ， 系 统 中 只 有 一 个 服务 台 ， 
容量 为 无 穷 的 等 待 制 系统 . 

(4) Ex/G/1/K 表示 相继 到 达 的 间隔 时 间 独 立 、 服 从 DT Erlang 分 布 ， 服 
务 时 间 为 独立 、 服 从 一 般 概率 分 布 ， 系 统 中 只 有 一 个 服务 台 ， 容 量 为 的 混合 
制 系统 . 
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(5) D/M/S/ K 表示 相继 到 达 的 间隔 时 间 独 立 、 服 从 定 长 分 布 、 服 务 时 间 相 
互 独立 、 服 从 指数 分 布 ， 系 统 中 有 S 个 服务 台 平行 服务 ， 容 量 为 K 的 混合 制 系 
Zt. 

4. 描述 排队 系统 的 主要 数量 指标 

(1) WK (Ls) 

队长 是 指 在 系统 中 的 顾客 的 平均 数 ( 包括 正在 接受 服务 的 顾客 ). 

(2) 顾客 的 平均 等 待 时 间 与 平均 逗留 时 间 (W) 

顾客 的 平均 等 待 时 间 是 指 从 顾客 进入 系统 的 时 刻 起 直到 开始 接受 服务 止 的 
平均 时 间 . 平均 逗留 时 间 是 指 顾客 在 系统 中 的 平均 等 待 时 间 与 平均 服务 时 间 之 
和 .平均 等 待 时 间 与 平均 服务 时 间 是 顾客 最 关心 的 数量 指标 . 

(3) 系统 的 忙 期 与 闲 期 

从 顾客 到 达 空 闲 的 系统 ， 服 务 立 即 开 始 ， 直 到 系统 再 次 变 为 空 闪 ， 这 上段 时 间 
是 系统 连续 繁忙 的 时 间 , 我 们 称 为 系统 的 忙 期 , 它 反 映 了 系统 中 服务 机 构 的 工作 
强度 ， 是 衡量 服务 机 构 利 用 效率 的 指标 . 














10.4.2 ”排队 模型 模拟 的 关键 


1. 关键 变量 
模型 模拟 的 关键 变量 是 事件 ， 以 及 每 个 事件 发 生 的 时 间 . 由 于 排队 模型 中 的 
每 个 事件 是 按时 间 发 和 后 的 ， 例 如 在 某 时 刻 有 顾客 到 达 ， 某 时 刻 有 顾客 离开 (服务 
完成 ) S. 因此 进行 模拟 有 三 个 关键 变量 : 
(1) 时 间 变 量 . 记录 系统 发 生 某 一 事件 的 时 间 ， 如 顾客 到 达 或 顾客 离开 . 
(2) 计数 变量 . 当前 在 服务 系统 中 顾客 的 个 数 . 
(3) 系统 状态 变量 . 系统 的 状态 ， 如 系统 是 空闲 还 繁忙 ， 系 统 中 顾客 的 个 数 ， 分 
别 在 哪个 服务 如 人 台 接 受 服务 等 
有 了 这 三 个 关键 变量 ， 其 他 变量 就 好 处 理 了 . 
2. Poisson 过 程 的 模拟 


在 排队 服务 系统 中 ,通常 假设 顾客 的 到 达 时 间 和 接受 的 时 间 服 从 Poisson 过 
程 ， 因 此 ， 对 于 Poisson 过 程 的 模拟 是 十 分 重要 的 . 
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由 概率 知识 可 知 ， 当 随机 过 程 是 强度 为 和 的 Poisson 过 程 时 ， 其 点 间 间 距 是 
相互 独立 的 随机 变量 ， 且 服从 参数 为 和 的 指数 分 布 ， 即 





Me *, t>0, 
fr(t) = t= 2,3,.…, 
0, t « 0, 
1 一 Xe 人 t>0, 
Fr,(t) = (23/9 
0, t « 0, 
因此 ， 有 


1 
t= -5 n(1 — Fs). 


由 于 Fr (t) ~ U(0, 1), W 1 — Fr,(t) ~ U(0,1), 因此 ， 模 拟 Poisson 过 程 到 达 
的 时 间 间 隔 公式 为 


1 
fá--ihw, i-12, (10.31) 


10.4.3 “等待 制 排队 模型 的 模拟 
等 竺 制 排队 模型 中 最 常见 的 模型 是 M/M/S/oo, 即 顾客 到 达 系 统 的 相继 到 
达 时 间 间 隔 独立 ， 且 服从 参数 为 和 的 指数 分 布 ( 即 输入 过 程 为 Poisson 过 程 )， 
服务 台 的 服务 时 间 也 独立 同 分 布 ， 且 服从 参数 为 u 的 指数 分 布 ， 而 且 系统 空间 
无 限 ， 人 允许 永远 排队 . 
1. 5=1 的 情况 (M/M/1/oo) 
系统 变量 
单一 变量 
t ”一 时间 变量 Na 一 在 t 时 刻 到 达 系 统 的 顾客 总 数 
tA 一 顾客 的 到 达 时 间 n 一 在 t 时 刻 当前 达 系 统 的 顾客 数 
tp 一 顾客 的 离开 时 间 7 一 总 服务 时 间 
数组 变量 (以 大 为 自 变量 ) 
w 一 记录 发 生 事件 的 时 间 ww， 一 记录 系统 中 的 顾客 数 
w, 一 记录 上 一 事件 到 下 一 事件 的 间隔 时 间 
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模拟 算法 I 

(1) 初始 步 : 置 + = Na = 0, 产生 顾客 到 达 系 统 的 初始 时 间 To, E ta = To, 
tp = oo( 此 时 系统 中 无 顾客 ). E k= 0. 

(2) 记录 系统 状态 . Ek — kl, wk) —t, w,(k) 2 n. WÈ ta <T, ME 


ws(k) = min(ta, tp) — t, 


然后 转 (3); 否则 置 
0, tp = OO, 
ws(k) = | 


tp—t, tp «oo, 
然后 转 (8). 

(3) 如 果 t4 < tp, ME t = t4, Na = Na 十 1( 顾 客 到 达 总 数 十 1), n 二 nn 十 1( 系 
统 中 顾客 数 +1), 产生 下 一 顾客 到 达 系 统 的 时 间 ta. 

(4) 如 果 n = 1, 产生 服务 台 上 顾客 的 离开 时 间 tp. 

(5) WÈ t4 2 tp, WHE t = tp, n =n 一 1( 系 统 中 顾客 数 —1). 

(6) WÈ n = 0( 系 统 中 无 顾客 ), 置 tp = oo; 否则 产生 服务 台 上 顾客 的 离开 
时 间 Tp. 

(7) 转 (2). 

(8) (此 时 t4 > T, 不 再 接收 新 顾客 ， 只 完成 系统 中 顾客 的 服务 )， WR n > 
0( 系 统 中 还 有 顾客 ), 并 置 t = tp, n — n 一 1( 系 统 中 顾客 数 一 1). 如 果 n > 0, 产 
生 服 务 台 上 顾客 的 离开 时 间 Tp, 然后 转 (2); 否则 转 (9). 

(9) 计算 队长 (Ls). PERETE (W) 和 顾客 等 待 的 概率 (Pait). 


L = LY w() wlk), 


k 
1 
W, = — wsslk) -wnlk), 
Dl) ealt) 
1 
Foii = » ws(k), 
wn(k)>1 


停止 计算 ， 输出 Ls ` W, 和 T tb: 
R 程序 (程序 名  queuei.R) 
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queuei«-function(lambda, mu, T){ 
k«-0; wt«-0; wn<-0; ws<-0; 
tp«-0; nA«-0; n«-0; t<-0 
r<-runif (1); tA«--1/lambda*log(r); tD«-Inf 


repeatí 
k«-k*1; wt[k]«-t; wn[k]«-n 
if (tA < T) 


ws[k]«-min(tA, tD)-t 
if (tA < tD){ 
t<-tA; n<-n+1; nA<-nA+1 
r<-runif(1); tA<-t-1/lambda*log(r) 
if (n==1){ 
r<-runif (1); tD«-t-1/mu*log(r) 
} 
}else{ 
t<-tD; n<-n-1 
if (n==0){ 
tD<-Inf 
}else{ 
r<-runif (1); tD«-t-1/mu*log(r) 


} 
}else{ 
ws[k]«-if(tD--Inf) 0 else tD-t 
if (na>0){ 
t<-tD; n<-n-1 
if (a>0){ 
r<-runif (1); tD«-t-1/mu*log(r) 


}else 
tp<-1 
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} 
if (tp==1) break 
} 
data.frame(Ls-sum(ws*wn)/t, Ws=sum(ws*wn)/nA, 
Pwait=sum(ws [wn>=1])/t) 
} 
例 10.14 某 维修 中 心 在 周末 现 只 安排 一 名 员工 为 顾客 提供 服务 .新 来 维修 的 顾 
客 到 达 后 ， 车 已 有 顾客 正在 接受 服务 ， 则 需要 排队 等 待 . 假设 来 维修 的 顾客 到 达 
过 程 为 Poisson 流 ， 平 均 4 人 /小 时 ， 维 修 时 间 服 从 指数 分 布 ， 平 均 需 要 6 分 
钟 ， 试 用 模拟 的 方法 求 该 系统 的 的 队长 (L。) 、 平 均 运 留 时 间 (W) 和 顾客 等 待 
的 概率 (系统 繁忙 概 举 ) (Pait). 
解 : 调用 编 好 的 程序 queue1 .RB, 输入 相应 的 参数 指标 ， 模 拟 1000 小 时 的 排 
队 服 从 系统 的 运行 情况 ， 
> source("queue1.R") 
> queuei(lambda-4, mu-10, T-1000) 
Ls Ws Pwait 
1 0.6938313 0.1685005 0.4118629 


其 理论 值 为 Ls = 0.6666667( A), Ws = 0.1666667( 小 时 ). Pwait = 0.4. 
例 10.15 在 商业 中 心 处 设置 一 台 ATM 机 ， 假 设 来 取 钱 的 顾客 平均 每 分 钟 0.6 
个 ， 而 每 个 顾客 的 平均 取 钱 的 时 间 为 1.25 分 钟 ， 试 用 模拟 的 方法 求 该 ATM 机 
的 队长 (Ls) ` 平均 运 留 时 间 (Ws) 和 顾客 等 待 的 概率 LPs 

fg. 模拟 10000 分 钟 的 排队 服从 系统 的 运行 情况 ， 

> queuei(lambda-0.6, mu-0.8, T-10000) 

Ls Ws Pwait 
1 2.949336 4.895917 O.T5TTTT5 


其 理论 值 为 Le = 5(X), W, = 558p). Pwait = 0.75. 
从 上 面 两 个 例子 可 以 看 出 ， 模 拟 值 与 理论 值 还 是 很 接近 的 . 
2. 5 > 1 的 情况 (M/M/S/oc) 


X 变量 
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对 于 5 > 1 的 情况 ， 变 量 意义 基本 上 与 5 = 1 的 情况 相同 ， 只 是 此 时 的 tp 
为 数组 ， 增 加 一 个 状态 变量 SS, 记录 系统 的 状态 情况 . 

模拟 算法 VI 

(1) 初始 步 : E t = Na = 0, 产生 顾客 到 达 系 统 的 初始 时 间 To, Eb ta = 
To, tp(i) = oo,4 = 1,2,.…,S( 此 时 系统 中 无 顾客 ). SS(i) = 0,i = 1 2 -S + 
1(SS(1) 记录 系统 当前 状态 的 顾客 数 ，55(2 ~ 5S 十 1) 记录 5 个 服务 台 的 工作 状 
S, 0 为 空间 ，1 为 工作 ), 置 上 = 0. 

(2) 如 果 SS(1) = 0, WE t = oo, i = 1; GE t = min(tp), i = 
argmin(tp). 


(3) 记录 系统 状态 . 置 k=k+ 1, wilk) = t, wn(k) — n. 如 果 ta < T 则 置 








ws(k) = min(t4,t1) — t, 


然后 转 (4); 否则 置 


0, t 一 OO, 
w,(k) = 
tj—t, ti «oo, 


然后 转 (11). 

(4) 如 果 ta < t, MWE t = ta, Na = Na 十 1( 顾 客 到 达 总 数 十 1), 产生 下 一 顾 
客 到 达 系 统 的 时 间 TA. En = SS), SSA) =n 十 1( 系 统 中 顾客 数 2-1). 

(5) XF i = 1,2,…,5, WR SS +i) = 0( 第 ;个 服务 台 空 亲 )， 则 置 
SS(1-- i) = 1( 将 系统 中 的 顾客 分 配给 第 i 个 服务 台 ， 开 始 服 务 ), 产生 第 i 个 服 
务 台 上 顾客 离开 的 时 间 Toli), 然后 中 止 循环 . 

(6) 如 果 t4 > t, WE t= ti, n = SS(1), SS(1) =n 一 1( 系 统 中 顾客 数 —1). 
7) 如 果 n = 1( 系 统 中 无 顾客 ), 置 SS(1 +i) 20, tp(i) 200,4 — 1,2,---,8. 
8) WR n < S, © SS(1- i1) = 0, tolii) = oo à 个 服务 台 空 闪 ). 

9) WÈ n > S, 产生 顾客 离开 第 di 个 服务 台 的 时 间 Tp (ii). 

10) 转 (2). 

11) (此 时 ta > T, 不 再 接收 新 顾客 ， 只 完成 系统 中 顾客 的 服务 )， 置 n = 
SS(1). WÈ n > 0, WE t= £p, SS(1) = n 一 1( 系 统 中 顾客 数 一 1), 然后 转 (7); 
否则 转 (12). 


UM VERAM vem UN 


MIA ÉL ON 
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(12) HENK (Ls). PENZA (Ws) 和 顾客 等 待 的 概率 (Pwait). 


Ls —. fms ws(Kk) ` wn(k), 
Ws = ~ > ,ws(k) .wna(k), 
Beso = oy Y) wk), 


停止 计算 ， 输 出 Ls, Ws 和 Pwait: 
R 程序 (程序 名 ;queue2.R) 
queue2«-function(lambda, mu, T, S=2){ 
k«-0; wt«-0; wn«-0; ws«-0 
tp<-0; nA«-0; t«-0 
r«-runif(1); tA«--1/lambda*log(r) 
tD«-rep(Inf, S); SS«-rep(0, S41) 


repeatí 
ti«-if(SS[1]-20) Inf else min(tD) 
ii«-if(SS[1]--0) 1 else which.min(tD) 
k«-k*1; wt[k]«-t; wn[k]«-SS[1] 
if (tA < Di 
ws[k]«-min(tA, ti)-t 
if (tA < t1){ 
t<-tA; nA<-nA+1 
r<-runif (1); tA<-t-1/lambda*log(r) 
n<-SS[1]; SS[1]<-n+1 
for (i in 1:9){ 
if (ss[1+i]==0){ 
SS[1*i]«-1 
r«-runif(1); tD[i]«-t-1/mu*log(r) 


break 
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} 
}else{ 
t«-ti; n«-SS[1]; SS[1]«-n-1 
if (n==1){ 
SS[2:(9*1)]«-0; tD[1:S]«-Inf 
Jelse if (n<=S){ 
SS[1+i1]<-0; tD[i1]<-Inf 
}else{ 
r<-runif (1); tD[ii]«-t-1/mu*1log(r) 


} 
} 
}else{ 
ws[k]<- if(tl==Inf) 0 else t1-t 
n<-SS [1] 
if (n>0){ 
t<-t1; SS[1]<-n-1; 
if (n==1){ 


SS[2:(S+1)]<-0; tD[1:S]«-Inf 
Jelse if (n<=S){ 

SS[1+i1]<-0; tD[i1]<-Inf 
}else{ 

r<-runif (1); tD[i1]<-t-1/mu*log(r) 


} 
}else 
tp<-1 
F 
if (tp==1) break 


} 
data.frame(Ls-sum(ws*wn)/t, Ws=sum(ws*wn)/nA, 
Pwait=sum(ws [wn>=S] )/t) 
} 
例 10.16 设 打 印 室 有 3 名 打字 员 ， 平 均 每 个 文件 的 打印 时 间 为 10 分 钟 ， 而 文件 
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的 到 达 率 为 每 小 时 15 件 ， 试 用 模拟 的 方法 求 该 打印 室 文 件 的 队长 (Ls) 、 文 件 的 
平均 过 留 时 间 (W.) 和 文件 等 待 的 概率 (Paus). 

f£. 调用 编 好 的 程序 queue2 .BR, 输入 相应 的 参数 指标 ， 模 拟 1000 小 时 的 排 
队 服 从 系统 的 运行 情况 ， 

> source("queue2.R") 

> queue2(lambda-15, mu-6, T-1000, S=3) 

Ls Ws Pwait 

1 5.980315 0.4010408 0.7002678 

其 理论 值 为 L, = 6.011236(f£F), Ws = 0.4007491( 小 时 ). Pait = 0.7022472. 


10.4.4 ”损失 制 与 混合 制 排队 模型 


损失 制 排队 模型 通常 记 为 M/M/S/5, 当 S 个 服务 器 被 占用 后 ， 顾 客 自动 离 

去 . 
混合 制 排 队 模型 通常 记 为 M/M/S/K, WE S 个 服务 台 或 服务 员 ， 系 统 空 

HREN K(K > 5), 当天 个 位 置 已 被 顾客 占用 时 ， 新 到 的 顾客 自动 离 去 ， 当 系 
统 中 有 空位 置 时 ， 新 到 的 顾客 进入 系统 排队 等 待 . 当 K = S 时 ， 混 合 制 排 队 模 
型 就 退化 成 损失 制 排队 模型 . 

这 里 只 给 出 混合 制 排 队 模 型 的 模拟 情况 ， 因 为 当 K = S 时 ， 就 是 损失 制 排 
队 模 型 的 情况 . 在 前 面 给 出 等 待 制 模型 的 模拟 后 , 混合 制 排队 模型 的 模拟 就 简单 
多 了 ， 只 需 对 前 面 的 程序 作 小 的 修改 ， 在 当前 系统 顾客 数 达 到 K 时 ， 则 新 到 的 
顾客 自动 离开 . 其 他 程序 不 变 . 

下 面 给 出 相应 的 算法 和 程序 .注意 ,对 于 损失 制 与 混合 制 排队 模型 ， 除 关心 
队长 (Ls) 、 平 均等 待 时 间 (Ws) 外 ， 还 要 关心 系统 的 顾客 损失 率 (Post). 

1. S— 1 的 情况 (M/M/1/K) 

模拟 算法 亚 

(1) 初始 步 ， 置 上 = Na = 0, 产生 顾客 到 达 系 统 的 初始 时 间 To, 置 ta = To, 
tp = co( 此 时 系统 中 无 顾客 ). E k= 0. 

(2) 记录 系统 状态 . Ek — kl, wk) =t, wa(k) ^n. WR ta <T, ME 








ws(k) = min(t4, tp) — t, 
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然后 转 (3); 否则 置 
0, tp = OO, 
ws(k) = | 


tp—t, tp «oo, 
然后 转 (9). 

(3) WR ta < tp, ME t = £4, NA = Na +1 RANA 3-1), n — n 十 1( 系 
统 中 顾客 数 +1), 产生 下 一 顾客 到 达 系 统 的 时 间 ta. 

(4) 如 果 n = 1, 产生 服务 台 上 顾客 的 离开 时 间 tp. 

(5) WÈ n = 天 (当前 顾客 达到 系统 容量 ), 做 如 下 工作 : 

Æ ta < tp( 新 顾客 在 已 被 服务 的 顾客 离开 前 到 达 ), 则 产生 下 一 顾客 到 达 

系统 的 时 间 £A (因为 这 个 新 顾客 需要 离开 ), 直至 tA > tp XE. 

(6) WÈ ta > tp, WE t = tp, n= 二 nn 一 1( 系 统 中 顾客 数 一 1). 

(7) WR n = 0( 系 统 中 无 顾客 ), Eb tp = oo; 否则 产生 服务 台 上 顾客 的 离开 
时 间 Tp. 

(8) 转 (2) 

(9) (此 时 ta > T, 不 再 接收 新 顾客 ， 只 完成 系统 中 顾客 的 服务 )， 如 果 n > 
0( 系 统 中 还 有 顾客 ), FE t= tp, n — nn 一 1( 系 统 中 顾客 数 —1). WR n > 0, 产 
生 服 务 台 上 顾客 的 离开 时 间 Tp, 然后 转 (2); 否则 转 (10). 

(10) 计算 队长 (L). PERE (Ws) 和 系统 的 顾客 损失 率 (Post). 


Ls m s ws(k Wwn( 
W; = RD ws(k Wwn( 


Pow- gm 25 ws(k), 
wn (k) 2K 
停止 计算 ， 输 出 Ls, Ws 和 Post 
R 程序 (程序 名 :queue3 .B) 
queue3«-function(lambda, mu, T, K=1){ 
k«-0; wt«-0; wn«-0; ws«-0 
tp«-0; nA«-0; n«-0; t<-0 
rX-runif(1); tA«--1/1lambda*log(r); tD«-Inf 
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repeatí 
k«-k*1; wt[k]«-t; wn[k]«-n 
Af (tA < T 


ws[k]«-min(tA, tD)-t 
if (tA«-tD)1 
t«-tA; n«-n*1; nA«-nA*1 
rX-runif(1); tA«-tA-1/lambda*log(r) 
if (n==1){ 
r<-runif (1); tD«-t-1/mu*log(r) 
} 
if (n==K){ 
while (tA < tD){ 
r<-runif (1); tA«-tA-1/lambda*log(r) 


} 
} 
}else{ 
t<-tD; n<-n-1 
if (n==0){ 
tD«-Inf 
}else{ 
r<-runif (1); tD<-t-1/mu*log(r) 
} 
} 
}else{ 
ws[k]«-if(tD--Inf) 0 else tD-t 
if (na>0){ 
t<-tD; n<-n-1 
if (na>0){ 
r<-runif (1); tD<-t-1/mu*log(r) 
} 


}else 
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tp«-1 
} 
if (tp==1) break 
} 
data.frame(Ls-sum(ws*wn)/t, Ws=sum(ws*wn)/nA, 
Plost=sum (ws [wn»-K])/t) 
J 
例 10.17 设 某 条 电话 线 , 平均 每 分 钟 有 0.6 次 呼唤 ,车 每 次 通话 时 间 平 均 为 1.25 
分 钟 ， 试 用 模拟 的 方法 求 该 系统 的 队长 (LI). PARE (W.) 和 系统 的 损 
AJ. (Post). 
f£. 调用 编 好 的 程序 queue3.R, 输入 相应 的 参数 指标 ,模拟 10000 分 钟 的 排 
队 服 从 系统 的 运行 情况 ， 
> Source("queue3.R") 
> queue3(lambda-0.6, mu-0.8, T-10000) 
Ls Ws Plost 
1 0.4289211 1.259454 0.4289211 
其 理论 值 为 Ls = 0.4285714(X), Ws = 1.25 (4) 8B). Post = 0.4285714. 
例 10.18 某 理发 店 只 有 了 名 理发 员 ， 因 场所 有 限 ， 店 里 最 多 可 容纳 4 名 顾客 ， 
假设 来 理发 的 顾客 按 Poisson 过 程 到 达 , 平均 到 达 率 为 每 小 时 6 人 ， 理 发 时 间 服 
从 指数 分 布 ， 平 均 12 分 钟 可 为 1 名 顾客 理发 ， 试 用 模拟 的 方法 求 该 系统 的 队长 
(Ls). PEBRE (W) 和 系统 的 损失 率 (Post). 
解 : 模拟 1000 小 时 的 排队 服从 系统 的 运行 情况 ， 
> queue3(lambda-6, mu-5, T-1000, K-4) 
Ls Ws Plost 
1 2.364356 0.5412132 0.2718579 
其 理论 值 为 L, = 2.359493( A), W; = 0.5451565( 小 时 ). Post = 0.2786498. 


2. 5 > 1 的 情况 (M/M/S/K) 
模拟 算法 IV 
(1) 初始 步 : E t = Na = 0, 产生 顾客 到 达 系 统 的 初始 时 间 To, Bb ta = 
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1(S5(1) 记录 系统 当前 状态 的 顾客 数 ，35(2 ~ 5 - 1) 记录 S 个 服务 台 的 工作 状 
态 ，0 AZA, 1 为 工作 ), 置 大 = 0. 

(2) 如 果 SS(1) = 0, WHE t = oo, à = 1; FWA t = min(tp), à = 
argmin(tp). 





ws(k) = min(t4,t1) — t, 


然后 转 (4); 否则 置 
0, ti = OO 
ws(k) = | 


tj—t, ti «oo, 


然后 转 (12). 

(4) 如 果 ta < t, WE t = ta, Na = NA 十 1( 顾 客 到 达 总 数 2-1), 产生 下 一 顾 
客 到 达 系统 的 时 间 Ta. 置 n= 二 .56(1), SS(1) =n + (APRAX +1). 

(5) XP i = 1,2,…,5, 如 果 SS(1--i) = 0( 第 i 个 服务 台 空 闪 ), NE 
SS(1-- i) = 1( 将 系统 中 的 顾客 分 配给 第 i 个 服务 台 ， 开 始 服务 ), 产生 第 i 个 服 
务 台 上 顾客 离开 的 时 间 Toli), 然后 中 止 循环 . 

(6) WR SS(1) = 天 (当前 顾客 达到 系统 容量 ), 做 如 下 工作 : 

E t = min(tp). 若 刀 < 所 (新 顾客 在 已 被 服务 的 顾客 离开 前 到 达 ), 则 产 
生 下 一 顾客 到 达 系 统 的 时 间 t4( 因 为 这 个 新 顾客 需要 离开 ), 直至 t4 2 t 为 止 . 

) 如 果 ta > ti, WME t = ti, n = SS(1), SS) = 二 nn 一 1( 系 统 中 顾客 数 一 1). 
8) WÈ n = 1( 系 统 中 无 顾客 ), E: SS(14- i) = 0, tp(i) = 00,i= 1,2,.…,5. 
(9) WÈ n € S, © SS(1-4- 4) —0, tolii) = oo(88 à CRI EZA). 

(10) WÈ n > S, 产生 顾客 离开 第 di 个 服务 台 的 时 间 Toli). 
(11) 转 (2). 


(12) (此 时 ta > T, 不 再 接收 新 顾客 ， 只 完成 系统 中 顾客 的 服务 )， 置 m = 
SS(1). WÈ n > 0, WE t = tp, SS(1) = n 一 1( 系 统 中 顾客 数 —1), 然后 转 (8); 
否则 转 (13). 


(7 
( 
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(13) 计算 队长 (Zs) . "ESSE EISE (Ws) 和 顾客 等 待 的 概率 ( Piost). 


1 

L, — - ws(Kk) - wn(k), 
t k 
1 

W, = — wsl k) - wn(k), 
P MERLO 
1 

Post = " »3 ws(k), 

wn(k)>K 


停止 计算 ， 输 出 Ls, Ws 和 Post 

R 程序 (程序 名 queue4.R) 

queue4«-function(lambda, mu, T, S-1, K=1){ 
if (K«S) K«-S 
k«-0; wt«-0; wn<-0; ws<-0 
tp<-0; nA«-0; t«-0 
r«-runif(1); tA«--1/lambda*log(r) 
tD«-rep(Inf, S); SS«-rep(0, S41) 


repeatí 
ti«-if(SS[1]-20) Inf else min(tD) 
ii«-if(SS[1]--0) 1 else which.min(tD) 
k«-k*1; wt[k]«-t; wn[k]«-SS[1] 
if (tA < Di 
ws[k]«-min(tA, ti)-t 
if (tA < t1){ 
t<-tA; nA«-nA-*1 
r<-runif (1); tA«-t-1/lambda*log(r) 
n<-SS[1]; SS[1]<-n+1 
for (i in 1:9){ 
if (ss[1+i]==0){ 
SS[1*i]«-1 
r«-runif(1); tD[i]«-t-1/mu*log(r) 
break 
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j 
if (SS[1]==K){ 
ti <- min(tD) 
while (tA < t1){ 
r<-runif (1); tA«-tA-1/lambda*log(r) 


} 
}else{ 
t«-ti; n«-SS[1]; SS[1]«-n-1 
if (n==1){ 
SS[2:(9*1)]«-0; tD[1:S]«-Inf 
Jelse if (n<=S){ 
SS[1+i1]<-0; tD[i1]<-Inf 


}else{ 
r<-runif (1); tD[ii]«-t-1/mu*1log(r) 
} 
} 
}else{ 
ws[k]<- if(tl==Inf) 0 else tí-t 
n«-SS[1] 
if (a>0){ 
t«-ti; SS[1]«-n-1; 
if (n==1){ 
SS[2:(9*1)]«-0; tD[1:S]«-Inf 
}else if (n<=S){ 
SS[1*i1]«-0; tD[iti]«-Inf 
}else{ 
r<-runif (1); tD[ii]«-t-1/mu*1log(r) 
} 
}else 


tp<-1 
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} 
if (tp==1) break 
} 
data.frame(Ls-sum(ws*wn)/t, Ws=sum(ws*wn)/nA, 
Plost-sum(ws [wn»-K])/t) 
} 
例 10.19 某 工厂 的 机 器 维修 中 心 有 9 名 维修 工 ， 因 为 场地 限制 ， 中 心 内 最 多 可 
以 容纳 12 台 需 要 维修 的 设备 ， 假 设 待 修 的 设备 按 Poisson 过 程 到 达 ， 平 均 每 天 
4 全 ,维修 设备 服从 指数 分 布 ， 每 台 设 备 平均 需要 2 天 时 间 ， 法 用 模拟 的 方法 求 
该 系统 的 队长 (Ls). PERRE (Wa) 和 系统 的 损失 率 (Post). 
解 : 调用 编 好 的 程序 queue4.R, 输入 相应 的 参数 指标 ， 模 拟 1000 天 的 排队 
服从 系统 的 运行 情况 ， 
> source("queue4.R") 
> queue4(lambda=4, mu-1/2, T-1000, 8-9, K-12) 
Ls Ws Plost 
1 7.736918 2.148876 0.08801383 


其 理论 值 为 Ls = 7.872193(&), W, = 2.153466 (48h). Post = 0.08610186. 


习题 十 


10.1 用 Monte Carlo 方法 计算 定 积 分 了 zi V1 十 x2dx, 2:3] 25 JE RR CAR 
法 和 平均 值 法 ， 并 计算 在 置信 和 度 为 a = 0.05, HEERA c= 0.001 条 件 下 ， 两 种 
方法 所 需 的 试验 次 数 . 

10.2 一 只 兔子 在 O 点 处 ， 它 的 洞穴 在 正 北 20 米 的 B 点 处 ， 一 只 狼 位 于 兔子 
的 正 东 33 米 的 A 点 处 . M Ec Ub. 狼 以 一 倍 于 兔子 的 速度 紧 盯 着 兔子 
追击 ， 画 出 狼 追 兔子 的 追逐 曲线 ， 问 : 当 兔 子 到 达 洞 口 前 是 否 被 狼 通 住 ? 

10.3 一 个 服务 员 的 信贷 膏 ， 顾客 的 平均 到 达 时 间 服 从 均值 为 20 秒 ， 标 准 差 10 
秒 的 正 态 分 布 ， 顾 客 购 买 1 ~ 4 件 商品 的 概率 为 

1 件 0.5, 2 件 02, 34%: 0.2, 4%: 0.1. 


习题 十 603 


购买 每 件 商 品 需要 的 时 间 服 从 均值 为 15 秒 ， 标 准 差 为 5 秒 的 正 态 分布， 著 信 贫 
亭 无 顾客 ， 则 新 到 的 顾客 接受 服务 ; 否则 排队 等 待 ， 即 看 成 是 等 待 制 排 队 系 统 . 
试 模拟 售 货 亭 运营 12 个 小 时 后 ， 售 货 亭 的 顾客 队长 (Lo), 顾客 的 平均 运 留 时 间 
(Ws) 和 和 售 货 亭 繁忙 的 概率 . 
10.4 电梯 运输 问题 游客 参观 电视 高 塔 ， 到 达 为 指数 分 布 ， 平 均 的 到 达 间 隔 为 
3 分 钟 ， 在 下 面 排 队 等 候 电 梯 ， 电 梯 容量 8 人 ， 至少 有 3 人 乘 电梯 时 才 开动 ， 电 
梯 运 行 时 间 为 常数 ， 在 塔 顶 ， 游 客 停留 时 间 服 从 均值 为 5 分钟 ， 标 准 差 为 9 分 
钟 的 正 态 分 布 ， 然 后 下 塔 ， 在 下 塔 人 中 ， 有 20% AFTA, A 80% 89 AR 
电梯 ， 著 塔 顶 的 游客 全 部 要 下 塔 ， 虽 不 足 9 人 电梯 也 开动 ， 而 且 最 后 1 人 下 塔 
总 是 来 电梯 ， 试 模拟 10 小 时 内 游客 上 、 下 塔 的 平均 等 待 时 间 . 
10.5 按 下 列 条 件 模拟 理发 店 系 统 工作 状态 情况 . 

(1) 理发 店 上 午 10:00 开门 ， 开 门 时 无 顾客 等 待 ， 

(2) 各 顾客 是 否 来 此 店 理发 及 何 时 来 此 店 理发 与 他 人 无 关 ， 且 任意 两 个 顾客 
到 达 的 时 间 间 隔 服 从 均值 为 4 分 钟 的 指数 分 布 . 

(3) 顾客 中 有 6095 5 A48 39 RR, 40%% 的 需要 洗 发 、 剪 发 和 吹 发 . 

(4) 服务 员 甲 为 一 位 顾客 前 发 的 时 间 服 从 6 分 分 钟 的 指数 分 布 ， 洗 发 、 剪 发 
和 吹 发 所 花 时 间 服 从 9 分 钟 的 指数 分 布 ， 服务 员 忆 的 服务 时 时 间 也 服从 指数 分 
布 ， 均 值 分 别 为 5 分 钟 和 7.5 分 钟 . 

(5) 当 顾客 到 达 时 , 如 发 现 已 有 6 位 顾客 正在 排队 等 待 服务 ， 则 放弃 等 待 ( 离 
X). 

(6) 每 位 服务 员 不 间断 地 为 4 位 顾客 服务 后 都 要 休息 了 分钟 . 

(7) 理发 店 晚 8:00 后 谢绝 顾客 进入 ， 在 完成 店内 的 顾客 服务 后 关门 ， 
试 模 拟 在 一 天 的 运营 中 ， 来 店 顾客 的 队长 (Ls) 、 平 均 运 留 时 间 (W.) 和 理发 店 
的 损失 率 (Pos). 
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在 书 中 ， 共 有 两 类 函数 ， 一 类 是 作者 自 编 的 函数 ， 男 一 类 是 R 软件 提供 的 
函数 . 为 便于 读者 查找 ， 下 面 给 出 函数 的 案 引 . 索引 由 三 部 分 组 成 ， 第 一 部 分 是 
函数 名 ,第 二 部 分 是 函数 的 意义 ,第 三 部 分 是 能 够 解释 该 函数 意义 或 能 够 体现 该 
函 使 用 方法 的 音节 号 . 由 于 有 些 函 数 在 全 书 中 不 断 调 用 ， 因 此 在 其 他 位 置 出 现 的 
章节 号 就 不 再 列 出 了 . 











附录 1 自 编写 的 函数 (程序 ) 


anova.tab 一 计算 方差 分 析 表 ， 7.1.3 $, 7.1.6 节 ，7.2.1 节 ， 7.2.2 75 
area — 计算 定 积 分 ， 2.9.4 节 


beta.int — 回归 参数 8 的 区 间 估 计 ， 6.1.4 节 ，6.3.4 节 ，6.3.7 节 
buffon — 模拟 Buffon 的 投 针 试验 ， 10.1.2 d$ 


corcoef.test 一 典型 相关 系数 检验 函数 ， 9.3.4 节 


data outline — 计算 样本 的 各 种 描述 性 统计 量 ， 3.1.3 5 
discriminiant.bayes — Bayes 判别 函数 (两 类 ), 8.1.2 5 
distinguish.bayes 一 Bayes 判别 函数 (多 类 ), 8.1.2 节 
discriminiant.distance 一 距离 判别 函数 (两 类 ), 8.1.1 7 
distinguish.distance 一 距离 判别 函数 (多 类 ), 8.1.1 证 
discriminiant.fisher — Fisher 判别 函数 (两 类 ), 8.1.3 节 


factor.analy 一 因子 分 析 (综合 ), 9.2.3 节 
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factor.analyl 一 因子 分 析 ( 主 成 分 法 ), 9.2.3 78 
factor.analy2 一 因子 分 析 (主因 子 法 ), 9.2.3 市 
factor.analy3 因子 分 析 ( 极 大 似 然 法 ), 9.2.3 节 
fzero 一 二 分 法 求 非 线性 方程 的 根 ， 2.9.1 证 


interval estimatei 一 区 间 佑 计 (单个 正 态 
interval estimate2 一 区间 估 计 (两 个 正 态 
interval estimate3 一 区间 佑 计 ( 非 正 态 总 
interval estimate4 一 区 间 佑 计 (单个 正 态 
interval_estimate5 — 区 间 佑 计 (两 个 正 态 
interval vari 一 区 间 佑 计 (单个 正 
interval var2 一 区 间 佑 计 (两 个 正 
interval var3 一 区 间 佑 计 (单个 正 


态 总 
态 总 
态 总 
interval var4 一 区 间 估 计 (两 个 正 态 总 


F FFF 


MC1 一 用 Monte Carlo 方法 (随机 投 点 法 ) 求 7 的 估计 值 ， 
MC1 2 一 用 Monte Carlo 方法 (平均 值 法 ) K 的 佑 计 值 ， 
MC2 一 用 Monte Carlo 方法 求解 赶 火 车 问题 ， 10.3.2 5 
MC3 一 用 Monte Carlo 方法 求解 核反应 堆 屏 蔽 层 设 计 问 题 ， 
mean.testi 一 单个 正 态 总 体 的 均值 检验 ， 5.2.18 

mean .test2 — 两 个 正 态 总 体 的 均值 差 检验 ， 5.2.1 节 
moment, fun — 作 矩 估计 用 的 解 方程 函数 ， 4.1.1 5 


Newtons — Newton 法 求 方 程 组 的 根 ， 2.9.3 节 ， 4.1.14 
nP 一 使 谱系 图 更 好 看 的 函数 ， 8.2.2 节 


outline — 绘 数据 的 轮 廊 图 ， 3.5.1 45 


总 体 均值 、 双 侧 )，4.3.1 节 
总 体 均值 、 双 侧 )，4.3.2 节 
体 均 值 、 双 侧 ), 4.3.3 节 
总 体 均 值 、 单 侧 ), 4.3.4 节 
总 体 均 值 、 单 侧 ), 4.3.4 节 
方差 、 双 侧 ), 4.3.1 节 
方差 比 、 双 侧 ), 4.3.2 节 
方差 、 单 侧 ), 4.3.4 节 
方差 比 、 单 侧 ), 4.3.4 节 


10.1.2 节 
10.1.3 节 


10.3.2 节 
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paramet.int 一 非 线 性 拟 合 参数 的 区 间 估 计 ， 6.7.2 节 
P value 一 计算 P- fj, 5.2.1 节 


queuel 一 模拟 等 待 制 ( 单 服务 台 ) 排队 模型 ， 10.4.3 市 
queue2 一 模拟 等 待 制 (多 服务 台 ) 排队 模型 ， 10.4.3 市 
queue3 一 模拟 混合 制 ( 单 服务 台 ) 排队 模型 ， 10.4.4 市 
queue4 一 模拟 混合 制 (多 服务 台 ) 排队 模型 ， 10.4.4 市 


Reg_Diag 一 回归 诊断 ， 6.5.4 节 
Rosenbrock 一 Rosenbrock pK ZW, 4.1.2 节 
ruben .test 一 通过 样本 的 相关 系数 估计 总 体 的 相关 系数 ， 


trace — 模拟 追逐 问题 ， 10.3.1 节 
twosam 一 计算 两 样本 的 t 统计 量 ， 2.9.1 市 


unison — 绘 数据 的 调和 曲线 ， 3.5.3 节 


var.testi 一 方差 检验 (单个 正 态 总 体 ), 5.2.2 $ 
var .test2 一 方差 比 检验 (两 个 正 态 总 体 ), 5.2.2 市 


附录 2 R 软件 中 的 函数 (程序 ) 


abline 一 低 水 平 作 图 函数 ， 加 直线 ， 3.3.3 p, 6.1.74 


3.4.2 节 
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addi 一 逐步 回归 ， 增 加 一 个 变量 ， 6.4.2 节 

all 一 判别 全 部 为 真 ， 2.2.3 5 

anova 一 生成 方差 分 析 表 ， 6.2.2 5 

any 一 判别 之 一 为 真 ， 2.2.3 5 

aov — 计算 方差 分 析 表 ， 7.1.3 节 ，7.2.1 节 ，7.2.2 节 ，7.3.2 节 ，7.3.3 d$ 
apply 一 应 用 函数 ， 计 算数 组 的 各 种 运算 ， 2.5.5 节 ， 3.1.1 节 
assign 一 赋值 函数 ， 2.2.1 节 

as.data.frame 一 转换 为 数据 框 ， 2.6.2 节 

as.dendrogram 一 将 系统 聚 类 的 对 象 转换 为 谱系 图 对 象 ， 8.2.2 8 
as.character 一 转换 为 字符 型 变量 ， 2.3.1 节 

as .numeric 一 转换 为 数值 型 变量 ， 2.175 

as.vector — 转换 为 向 量 ， 2.5.5 节 

array 一 构造 多 维 数组 ， 2.5.1 5 

attach 一 连接 数据 框 或 列表 函数 ， 2.6.2 $ 

attr — 存 取 对 象 的 属性 ， 2.3.3 节 

attributes 一 返回 对 象 的 属性 ， 2.3.3 节 

axes 一 图 中 的 逻辑 命令 ， 是 否 画 坐标 轴 ， 3.3.2 市 

axis 一 低 水 平 作 图 函数 ， 边 上 加 标记 ， 3.3.3 35 


bartlett.test — Bartlett 检验 函数 ， 7.1.5 节 

binom.test 一 二 项 总 体 分 布 的 检验 函数 ， 5.2.3 gp, 5.3.4 节 ，5.3.7 节 
biplot 一 按 主 成 分 画 数 据 散 点 图 ， 9.1.3 W 

break 一 IEAJ, 2.8.2 节 

boxplot — 作 箱 线 图 ， 3.2.3 布 


c 一 向 量 建立 函数 ， 2.2.1 5 

cancor 一 典型 相关 分 析 计 算 函 数 ， 9.3.3 市 

cbind 一 矩阵 按 列 合并 ， 2.5.5 节 

chisq.test — y? 检验 函数 ， 5.3.1 节 ，5.3.2 节 ， 5.3.3 节 
coef 一 提取 回归 系数 ， 6.2.2 节 
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coefficients 一 提取 回归 系数 ， 6.2.2 节 


complex 一 生产 复数 ， 2.2.6 5 


contour 一 绘 三 维 图 形 的 等 值 线 ， 3.3.1 节 


cooks.distance 一 计算 Cook 距离 ， 


6.5.4 节 


coplot — 绘 样本 的 散 点 图 (不 同 水 平 ), 3.3.1 市 
cor — 计算 相关 矩阵， 3.4.1 节 ， 3.4.3 B, 5.3.6 d 


cor.test — 相关 性 检验 ， 3.4.2 $, 


3.4.3 节 


cov 一 计算 协 方差 阵 ， 3.4.1 节 ， 3.4.3 节 
covratio 一 计算 COVRATIO 值 ， 6.5.4 节 


crossprod — 矩阵 的 又 积 运 算 ， 2.5.4 节 





cut 一 将 变量 分 成 知 干 个 区 间 ， 5.3.1 





节 


data 一 调用 R 中 的 数据 库 ， 2.7.3 节 


data.frame 一 生成 数据 框 ， 2.6.2 节 


density 一 核 密 度 估计 函数 ， 3.2.2 市 


det 一 计算 甜 阵 的 行列 式 ， 2.5.4 市 


deviance — 提取 残 差 平方 和 ， 6.2.2 节 


dffits 一 计算 DFFITS 距离 ， 6.5.4 


节 


dim 一 定义 数组 维 数 ， 2.5.1 节 .， 取 和 窍 阵 的 维 数 ， 


dimnames — 数组 命名 ， 2.5.5 节 
dist 一 生成 聚 类 分 析 中 的 距离 结构 ， 


8.2.1 节 


dnorm — 概率 密度 函数 ( 正 态 分 布 ), 3.2.1 节 


dotchart 一 绘 数据 的 点 图 ， 3.3.1 节 


dpois 一 概率 密度 函数 (Poisson 分 布 ), 3.2.1 节 


dropi 一 逐步 回归 ， 减少 一 个 变量 ， 


ecdf 一 经 验 分 布 ， 3.2.2 节 

edit 一 编辑 函数 ， 2.6.3 5 

eigen 一 求 和 矩阵 的 特征 值 与 特征 向 量 ， 
exp 一 指数 函数 ， 2.2.1 5 


6.4.2 节 


2.5.4 节 ， 


2.5.5 节 


6.5.5 节 
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factanal 一 因子 分 析 计 算 函 数 ， 9.3.5 节 
factor — 生成 因子 ， 2.4.1 节 

fisher.test — Fisher 检验 函数 ， 5.3.3 d$ 
fix 一 数据 编辑 ， 2.1.3 节 

friedman.test 一 Friedman 检验 ， 7.1.7 节 
fivenum 一 五 数 总 括 ， 3.2 $ 

for 一 循环 语句 ， 2.8.3 节 

formula 一 提取 模型 公式 ， 6.2.2 节 


glm 一 计算 广义 线性 模型 的 函数 ， 6.6.1 节 ， 6.6.25 


hat 一 计算 帽子 矩阵 ， 6.5.4 节 

hatvalues — 计算 帽子 矩阵 ， 6.5.4 节 

hclust 一 计算 系统 聚 类 ， 8.2.2 节 

hist 一 绘 样本 直方 图 ， 2.1.2 节 ， 3.2.2 节 ， 3.3.1 节 


I(Xx^2) 一 X?, 6.3.6 节 

if / else 一 分 支 语 句 ， 2.8. 节 

image 一 绘 三 维 图 形 ， 3.3.18 

Inf 一 无限 数 据 ， 2.2.4 节 

influence.measures 一 回归 诊断 总 括 函 数 ， 6.5.4 
is.character 一 判断 是 否 为 字符 型 变量 ， 2.3.1 节 
is.data.frame 一 判断 是 否 为 数据 框 ， 2.7.1 节 
is.finite 一 判断 是 否 为 有 限 数 据 ， 2.2.4 节 
is.infinite 一 判断 是 否 为 无 限 数据 ， 2.2.4 d 
is.list 一 判断 是 否 为 列表 ， 2.7.1 节 

is .na 一 判断 是 否 为 删 失 数据 ， 2.2.4 市 
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is.nan — 判断 是 否 为 不 确定 数据 ， 2.2.4 节 
is.numeric 一 判断 是 否 为 数值 型 变量 ， 2.3.1 节 


kappa 一 计算 矩阵 条 件数 ， 6.5.5 5 

kmeans 一 K- 均值 察 类 也 数 ， 8.2.3 节 

ks.test 一 Kolmogorov-Smirnov 检验 ， 3.2.4 节 ， 5.3.25 
kruskal.test — Kruskal-Wallis 检验 ， 7.1.6 节 


length 一 计算 向 量 和 维 数 ， 2.2.1 $, 2.3.1 节 ， 4.1.1 节 
library — 将 数据 库 调 入 内 存 ， 2.7.2 节 ， 2.7.3 节 
lines — 画 直 线 ， 2.2.6 节 ， 3.22 节 
一 低 水 平 作 图 函数 ， 加 线 ， 3.3.3 节 
list 一 生成 列表 ， 2.6.1% 
lm 一 作 线 性 回归 ， 6.1.3 节 ， 6.2.1 节 ， 6.3.34, 6.3.7 节 ， 6.4.2 节 
load — 载 入 工作 空间 ， 2.1.3 节 
loadings 一 提取 载荷 因子 函数 ， 9.1.3 4$ 
log 一 对 数 函 数 ， 2.8.1 5 
lsfit — 最 小 二 乘 拟 合 ， 2.5.4 节 


mahalanobis 一 计算 Mahalanobis 距离 ， 8.1.1 节 
matrix 一 $E E, 2.5.17 

max — 计算 样本 的 最 大 值 ， 2.2.1 55 

mcnemar.test 一 McNemar 检验 函数 ， 5.3.3 节 

mean 一 计算 样本 均值 ， 2.1.2 节 ， 3.1.1 节 ， 4.1.1 节 
median 一 计算 样本 中 位 数 ， 2.2.1 节 ， 3.11 

min 一 计算 样本 的 最 小 值 ， 2.2.1 节 

mode 一 属性 函数 ， 2.3.1 i 
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NA 一 删 失 数据 ，2.2.4 节 

NAN 一 不 确定 数据 ， 22.475 

ncol 一 取 和 矩阵 的 列 数 ， 2.5.5 45 

next — 空 语句 ， 2.8.2 节 

nlm 一 求 多 元 函数 极 小 点 ， 4.1.2 节 ， 6.7.2 节 
nls 一 计算 非 线性 拟 合 函数 ， 6.7.2 市 
numeric 一 产生 数值 型 变量 ， 2.2.7 节 

nrow 一 取 和 矩阵 的 行 数 ， 2.5.5 45 


optimise 一 求 一 元 函数 极 小 点 ， 4.1.2 市 

optimize 一 求 一 元 函数 极 小 点 ， 4.1.2 d$ 

order 一 计算 顺序 统计 量 的 下 标 ， 2.2.1 节 ， 3.115 
outer 一 又 积 运算 ， 2.5.4 节 


p.adjust 一 p- 值 调 整 函 数 ，7.1.4 节 

pairs 一 绘 样本 散布 图 ， 3.3.1 节 

pairwise.t.test 一 均值 的 多 重 比 较 ， 7.1.47 

par 一 图 形 参数 设置 函数 ， 6.5.4 W 

paste — 连接 字符 串 ， 2.2.5 节 

persp — 绘 三 维 图 形 的 表面 曲线 ， 3.3.1 节 

plclust 一 绘 出 谱系 图 ， 8.2.2 45 

plot — 绘 样本 的 散 点 图 ， 2.1.2 B, 3.3.1 5 
一 绘 出 经 验 分 布 图 ， 3.2.2 节 ， 6.3.7 节 
一 绘 曲 线 、 样 本 直方 图 、 箱 线 图 、 散 布 图 等 ， 3.3.1 节 ， 7.1.3 78 
一 绘 回归 诊断 图 ， 6.2.2 节 ， 6.5.3 节 
一 绘 出 谱系 图 ， 8.2.2 节 

pnorm 一 分 布 函数 ( 正 态 分 布 ), 3.2.1 节 

points — 低 水 平 作 图 函数 ， 加 点 ， 3.3.3 5 

poly 一 计算 正 交 多 项 式 ， 6.7.1 节 
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ppois — 分布 函数 (Poisson 分 布 ), 3.2.1 节 
prcomp — 计算 主 成 分 分 析 ， 9.2.3 节 
princomp 一 计算 主 成 分 分 析 ， 9.2.3 节 
prod 一 连 乘积 函数 ， 2.2.1 节 


predict 一 模型 预测 及 区 间 估 计 ， 6.1.5 节 ， 6.2.2 节 ， 


一 预测 主 成 分 值 ， 9.1.3 市 
print 一 显示 结果 ， 6.2.2 5 


qO 一 退出 及 系统 ，2.1.3 节 

qnorm 一 计算 下 分 位 点 ( 正 态 分 布 ), 3.2.1 5 
qpois 一 计算 下 分 位 点 (Poisson 分 布 ), 3.2.1 节 
qqline 一 绘 样 QQ 散 点 图 对 应 的 直线 ， 3.2.2 75, 
qqnorm 一 绘 样 QQ 散 点 图 ， 3.22 节 ， 3.3.1 市 
qqplot — 绘 样 QQ 散 点 图 ， 3.22 节 ， 3.3.1 市 
qr 一 QR 分 解 ， 2.5.4 节 

qr.coef 一 计算 最 小 二 乘 的 系数 ， 2.5.4 d$ 
qr.fitted 一 最 小 二 乘 的 拟 合 值 ， 2.5.4 F 
qr.resid 一 最 小 二 乘 的 拟 合 残 差 值 ， 2.5.4 节 
quantile 一 计算 样本 百 分 位 数 ， 3.1.1 市 


range 一 计算 样本 的 区 间 ， 2.2.1 35 

rank 一 计算 秩 统计 量 ， 5.3.5 节 

rcauchy 一 产生 Cauchy 分 布 的 随机 数 ， 4.1.2 节 
rbind 一 矩阵 按 行 合 并 ， 2.5.5 节 

rbinom 一 产生 二 项 分 布 的 随机 数 ， 4.1.1 节 
read.csv 一 jE€ Excel 表 的 CSV 文件 ， 2.7.2 节 
read.delim 一 读 Excel 表 的 纯 文 本 文件 ， 2.7.2 45 
read.dta 一 读 Stata 文件 ， 2.7.2 45 

read.S 一 读 S-PLUS 文件 ， 2.7.2 45 

read.spss 一 读 SPSS 文件 ， 2.7.2 5 


3.3.1 节 


6.3.5 节 
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read.table 一 读数 据 文件 ， 2.1.2 节 ， 2.7.1759 
read.xport 一 读 SAS 文件 ， 2.7.25 
rect.hclust — MERK, 8.2.2 7 

resid 一 计算 回归 残 差 ， 6.5.2 节 

residuals 一 计算 回归 残 差 ， 6.1.7 节 ， 6.2.2 5, 6.5.25 
rep 一 产生 重复 的 数列 ， 2.2.2 节 

repeat 一 循环 语句 ， 2.8.3 55 

rnorm 一 生成 随机 数 ( 正 态 分 布 ), 3.2.1 5 

rpois 一 生成 随机 数 (Poisson 分 布 ), 3.2.1 节 
rstandard 标准 化 (内 学 生化 ) 残 差 ， 6.5.2 节 
rstudent 一 (外 ) 学 生化 残 差 ， 6.5.2 5 








save.image 一 保存 工作 空间 ， 2.1.3 5 

scale — 作 数据 中 心 化 或 标准 化 的 函数 ， 8.2.1 市 

scan 一 读 纯 文本 文件 ， 2.7.1 市 

screeplot 一 画 出 主 成 分 的 碎 石 图 函数 ， 9.1.3 节 

sd 一 计算 样本 标准 差 ， 2.1.2 $, 3.1.2 47 

seq 一 产生 等 间隔 数列 ， 2.2.2 市 

shapiro.test 一 正 态 性 W 检验 ， 3.2.4 W, 6.5.2 节 ， 7.1.5 节 

solve 一 P TEA., ARERGK3, 2.5.4 节 

source — 执行 自 编 的 函数 (程序 ) 21.34 

sort 一 计算 顺序 统计 量 ， 22.145, 3.1.1 节 

sort.list 一 计算 顺序 统计 量 的 下 标 ， 2.2.14 

stars 一 星 图 ， 3.5.2 

stem — fEZEnFE, 3.2.3 节 

step 一 作 逐 步 回归 ， 6.2.2 B, 6.4235 

sqrt 一 开 方 函数 ， 2.2.1 45 

sum 一 KFA KA, 2.2.1 $, 3.1.1 45 

summary 一 提取 模型 信息 ， 6.1.3 节 ， 622, 6335, 6425 
一 提取 主 成 分 信息 ， 9.2.3 市 

svd 一 矩阵 的 奇异 值 分 解 ， 2.5.4 市 


附录 2 R 软件 中 的 函数 (程序 ) 


sweep 一 对 数组 或 矩阵 进行 某 种 运算 ， 8.2.1 47 
switch 一 多 分 支 语 句 ， 2.8.1 节 


t 一 矩阵 的 转 置 ， 2.5.4 节 

t.test — t 检验 函数 ，4.3.1 节 ，4.3.2 节 ，4.3.4 节 ，5.2.1 节 
table 一 因子 合并 也 数 ，5.3.1 节 

tapply 一 应 用 函数 ， 在 因子 计算 其 他 值 ， 2.4.2 节 

text 一 低 水 平 作 图 函数 ， 加 文字 ， 3.3.3 节 

title 一 低 水 平 作 图 函数 ， 加 标记 ， 3.3.3 5 

type 一 图 中 的 显示 命令 ， 表 示 绘 出 各 种 形式 的 图 形 ， 3.3.2 节 


uniroot 一 求 非 线性 方程 的 根 ， 2.9.1 节 ，4.1.2 节 
updata 一 模型 修正 ， 6.3.6 节 ， 6.3.7 节 


var 一 计算 样本 方差 ， 2.2.1 节 ，3.1.2 5, 4.1.1 节 
var.test 一 方差 比 检验 函数 ， 4.3.2 $, 5.225 
varimax 一 RATAN TRAE, 9.2.4 5 


weighted.mean 一 计算 加 权 样 本 均值 ， 3.1.1 45 

which.max 一 给 出 最 大 值 的 下 标 ， 2.2.1 节 

which.min 一 给 出 最 小 值 的 下 标 ， 2.2.1 市 

whicoxon 一 Wilcoxon 秩 检 验 函 数 ， 5.3.7 节 

while 一 循环 语句 ， 2.8.3 节 

write — 写 纯 文本 文件 ， 2.7.4 节 

write.table 一 将 数据 框 或 列表 写成 纯 文 本 文件 ， 2.7.4 45 
write.csv 一 将 数据 框 或 列表 写成 Excel 的 CSV. 文件 ， 2.7.4 节 
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A — 除法 求 余 数 , 2.2.1 市 
%*% — 点 积 运 算 , 2.5.4 节 

%/% 一 整除 运算 , 2.2.1 节 

%o% — 义 积 运 算 , 2.5.4 节 

: 一 产生 等 差 数 列 ， 2.2.2 节 
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